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ПРЕДИСЛОВИЕ 


Основа изменения живых организмов — генетическое разнооб- 
разие. Именно генетическое разнообразие, или, как еще говорят, 
генетическая изменчивость, определяет возможности микроэволю- 
ционных изменений, с которыми связаны и адаптация к меняющимся 
условиям среды, и эффективность селекционных решений, и отда- 
ленные последствия антропогенных воздействий. Элементами преоб- 
разования и единицами исследования внутривидовой изменчивости 
являются популяции — крупные, относительно независимые подраз- 
деления видового генофонда. Первичной информацией об их изме- 
нчивости служат данные о признаках особей, взятых из исследуемых 
популяций. 

Популяции являются объектом изучения многих дисциплин, со- 
ставляющих популяционную биологию. Ряд ее разделов, в особен- 
ности популяцибнная генетика и примыкающая к ней фенетика по- 
пуляций, непосредственно изучают изменчивость популяций: рас- 
пределение признаков среди особей и факторы их динамики. Гене- 
тика популяций сегодня — это интенсивно развивающаяся, широко 
разветвленная дисциплина с рядом четко очерченных проблем, 
связанных с задачами селекции, генетического мониторинга и эволю- 
ции популяций. 

Большую роль в анализе этих проблем играют математические 
методы. Для различных типов возникающих здесь задач уже разра- 
ботаны или разрабатываются соответствующие методы статистиче- 
ского анализа данных полевых наблюдений и лабораторных экспе- 
риментов. Но встающие в генетике популяций вопросы не всегда 
можно решить одним лишь статистическим анализом данных. Оценка 
генетических процессов в популяциях нередко требует выяснения 
особенностей распределения признаков на основе исследования 
моделей популяционной структуры. Теоретически методология по- 
строения таких моделей разработана и может применяться в решении 
прикладных задач. Таким образом, на сегодня фактически уже создан 
математический аппарат популяционной генетики и фенетики в виде 
методов статистического анализа и математического моделиро- 
вания. Следует добавить, что современный уровень компьютеризации 
позволяет проводить подробный и быстрый попФляционный анализ 
на основе этих методов. 

Вместе с тем в популяционно-биологической литературе наблю- 
дается значительная разобщенность материала. С одной стороны, 
имеется много хороших монографий по проблемам популяционной 

з 


биологии и генетики, в которых, однако, практически не разбираются 
методы математико-статистического анализа. С другой стороны, есть 
целая серия не менее хороших книг как по биометрии, так и по 
математической генетике, но в них почти не рассматриваются прак- 
тические вопросы популяционной биологии и генетики. Поэтому 
желательно совместить обе стороны и рассмотреть математические 
методы анализа в свете основных популяционно-биологических 
проблем. Соответствующий раздел популяционной биологии мы на- 
зовем популяционной биометрией и по аналогии с определением 
биометрии [Глотов и др., 1982] дадим следующее определение: По- 
пуляционная биометрия — это раздел популяционной биологии, 
включающий планирование, анализ и интерпретацию результатов по- 
пуляционных исследований методами прикладной математики. 

В любой области знания математика — это в первую очередь логика 
научного исследования. Популяционная биометрия — это логика 
анализа популяционно-биологических задач, сформулированных в 
понятиях математической статистики, уравнений динамики, теории 
матриц и т.п. Настоящей книгой мы попытались заложить основы 
популяционной биометрии путем синтеза математических дисцип- 
лин и изучения генетической ‘структуры популяций (на примере од- 
ного из параметров популяционной биологии — генетической измен- 
чивости организмов). 

Основная цель книги — обратить внимание на различные методы 
анализа и возможность генетической интерпретации эмпирических 
данных об изменчивости. Поэтому книга включает не только ста- 
тистические методы (как стандартные, описанные в учебных посо- 
биях, так и специальные, встречающиеся только в научных журналах), 
но и математические модели анализа частот аллелей и генотипов, 
учитывающие отбор, миграции и другие факторы, определяющие фе- 
нотипическую структуру популяций. Обоснуем свое мнение под- 
робнее. 

Можно выделить два этапа работы над первичными данными, полу- 
ченными в ходе популяционного обследования. Первый этап — ста- 
тистический анализ материала: определение частот фенотипов, гено- 
типов и аллелей, оценка генного разнообразия и гетерогенности 
популяций, классификация выборок и выявление структурной орга- 
низации группировок и т.д. На этом этапе мы получаем сведения о 
фено- и генотипической структуре популяций. Логическим заверше- 
нием его является определенная гипотеза или ряд гипотез о попу- 
ляционно-генетических факторах, обусловливающих наблюдаемую 
популяционную структуру. На этом, как правило, популяционно- 
генетический анализ заканчивается. 

Однако если говорить о полноте количественного анализа, то с 
позиций популяционной биометрии статистическая обработка — 
лишь первый этап исследования. Не менее важным является второй 
этап популяционно-биометрического анализа — тестирование вы- 
двинутых гипотез о популяционно-генетических факторах. Чтобы 
выбрать наиболее правдоподобную из выдвинутых гипотез, следует 
количественно оценить их. На сегодняшний день нет четких кри- 
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териев сравнения популяционно-генетических гипотез. Тем не менее 
ясно, что такие критерии должны быть основаны не на статических 
моделях (как постулируют основные статистические методы, приме- 
няемые в популяционной генетике), а на моделях динамических, 
Учитывающих возможные изменения популяционной структуры под 
действием предполагаемых популяционно-генетических факторов 
(отбора, миграций и др.). Например, если на основе имеющихся дан- 
ных о частотах генотипов и генетической подразделенности популя- 
ции мы заключаем, что основные факторы, приведшие к наблюдаемой 
генетической структуре, — это миграция и отбор, то эту гипотезу 
следует тестировать на основе модели динамики частот генотипов 
под действием миграций и отбора, привлекая дополнительные дан- 
ные по оценке этих факторов. Такому тестированию должны подвер- 
гаться и альтернативные гипотезы. Поэтому вторым этапом популя- 
ционно-биометрического анализа является построение динамичес- 
ких популяционных моделей для каждой из популяционных гипотез 
и сопоставление всех теоретических выводов каждой такой модели с 
фактическими данными и результатами первого этапа анализа с 
целью выбора наиболее адекватных из этих гипотез. Следует под- 
черкнуть, что количественный анализ динамических моделей может 
выявить "узкие" места в собранной информации об изучаемых попу- 
ляциях и стимулировать новые полевые и лабораторные иссле- 
дования. 

Книга состоит из четырех глав, и основные из них (вторая и третья) 
ориентированы на указанные этапы исследования. В гл. 2 приведен 
ряд методов статистического анализа, которые можно отнести к 
первому этапу популяционно-генетического анализа. Эта группа 
методов обретает достаточно четкие очертания, и в настоящее время 
существует уже большое количество компьютерных программ, 
позволяющих эффективно применять их. В отличие от них методы 
динамического популяционного анализа (второй этап популя- 
ционно-биометрического исследования) практически не разработаны 
и применяются совместно с методами первого этапа чрезвычайно 
редко. Поэтому в гл. 3 мы освещаем идею вывода и анализа дина- 
мических моделей и рассматриваем некоторые обшие закономер- 
ности популяционной динамики и динамических популяционных 
гипотез. Дальнейшее развитие теории и ее приложений выявит, какие 
из методов динамического анализа окажутся наиболее приемлемыми 
в популяционных исследованиях. Однако мы полагаем, что даже схе- 
матическое изложение методов динамического анализа, как они даны 
в гл. 3, стимулирует интерес к этой стороне популяционной био- 
метрии. 

Главы 2 и 3 целиком ориентированы на анализ изменчивости 
качественных признаков. Количественная изменчивость не менее а, 
скороее всего, более нужна для описания популяций. Но методы ее 
анализа и вообще проблемы количественной изменчивости столь 
обширны, что требуют отдельного изложения. Тем не менее эта книга 
была бы неполна без упоминания количественных признаков. Им 
посвящена гл. 4; из всего многообразия проблем мы выбрали для 
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рассмотрения наиболее актуальные стороны анализа количественной 
изменчивости, такие, как устойчивость статистических методов и 
анализ комплексов признаков. 

Книга адресована широкому кругу биологов-популяционистов, 
генетиков, зоологов, ботаников, селекционеров, медиков, математи- 
ков и дгугих специалистов, использующих популяционно-биометри- 
ческие методы анализа. Ее можно рекомендовать и для учебных 
целей, для этого в нее введена гл. 1, где кратко изложены матема- 
тические основы предмета и даны определения большинства исполь- 
зуемых понятий и терминов. 

Работа над книгой стимулировалась многолетним сотрудничест- 
вом сН.В. Глотовым, М.К. Глубоковским, Б.А. Калабушкиным, А.И. Пу- 
довкиным. Ряд весьма полезных замечаний был высказан НН. Хро- 
мовым-Борисовым. Большую помощь в работе над рукописью оказала 
Н.Н. Семенова. Всем им автор глубоко признателен. 


Глава 1 


ТЕОРЕТИЧЕСКИЕ ОСНОВЫ 
ПОПУЛЯЦИОННОЙ БИОМЕТРИИ 


Популяционная биология, а популяционная генетика в особен- 
ности по сути своей являются дисциплинами, стиль мышления кото- 
рых буквально пронизан вероятностным духом и статистическими 
понятиями. Первичные данные здесь -- это результаты камеральной 
обработки изученных выборок. Методы анализа и интерпретации 
таких данных предоставляет теория популяционной биологии, мате- 
матической статистики, многомерного информационного анализа и 
динамических уравнений. Она является базисом популяционной био- 
метрии, поэтому ниже излагается основной понятийный аппарат этой 
КНИГИ. 


81. ПРИЗНАКИ 
Понятие признака 


Высокая внутривидовая изменчивость -- аксиома популяционной 
биологии. Даже небольшая по обьему выборка содержит разнооб- 
разные, т.е. отличаюциеся друг от друга, особи. Это разнообразие 
описывается теми или иными особенностями организма -- приз- 
наками. 

Признак -- это любая фенотипическая особенность, характеризую- 
шая особей исследуемых группировок. Признак называют вариабель- 
ным, если существуют качественные или количественные различия 
между особями в степени его выраженности. 

Признаки могут отражать молекулярный, клеточный или органный 
уровни; включать морфологические, физиологические или поведен- 
ческие характеристики. Они могут обладать разным размахом измен- 
чивости, в большей или меньшей степени детерминироваться геноти- 
пом, по-разному отражать условия окружающей среды, вносить тот 
или иной вклад в приспособленность. По совокупности вариабельных 
признаков особь индивидуальна, т.е. отличается от любой другой. 
Такое может наблюдаться даже по отдельным признакам. Например, 
каждый человек практически уникален по дерматоглифическим приз- 
накам (папиллярным узорам пальцев и ладоней) или по паттерну 
рестрикционных фрагментов ДНК. 

В популяционных исследованиях важно не только выявить суще- 
ствование различий между особями. Гораздо важнее дать количе- 
ственную оценку этих различий, причем различий не только между 
особями, но и между группировками особей. Поэтому на первый план 
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часто выдвигается задача определения индивидуальных и групповых 
характеристик по исследуемым признакам. 

Говоря о биометрической стороне анализа признаков, следует 
подчеркнуть, что в популяционных исследованиях принято разли- 
чать качественные и количественные признаки. 

Признак называют качественным, если совокупность особей можно 
однозначно расклассифицировать на четко различимые группы. 

Качественные варианты признака легко отличить друг от друга, 
они мало подвержены изменениям в течение жизни особей. Качест- 
венные варианты называют по-разному: вариациями, морфами, фено- 
типами и т.д. Нередко сложные фенотипы дробят на элементарные 
качественные признаки — фены [Яблоков, Ларина, 1985], которые мож- 
но выделить, например, по принципу «присутствие-отсутствие». 

Наличие в популяции нескольких качественно различающихся 
вариантов признака называют полиморфизмом. В генетике популяций 
рассматривают генетический полиморфизм — существование в попу- 
ляции двух или более генетически различных качественных вариан- 
тов признака с достаточно высокой частотой. Таким образом, генети- 
ческий полиморфизм — это не возрастные, не половые, не тканевые 
различия в проявлении признака; генетический полиморфизм отра- 
жает различия между особями по генам, детерминирующим 
данный признак. Под достаточно высокой частотой ранее понималась 
такая, которая превышает частоту возникновения мутаций. В работах 
последних лет для определенности считают, что популяция поли- 
морфна, если частота доминирующей формы не больше 0,95—0,99; эта 
граница, конечно, условна. 

Генетический полиморфизм — широко распространенное явление. 
Он выявлен для всех групп организмов — от простейших до выс- 
ших — и характерен для всех уровней популяционной организации 
вида вплоть до небольших по численности группировок особей. 
Полиморфизм по окраске, распределению пятен и полос, наличию или 
отсутствию каких-либо иных морфологических особенностей часто 
имеет наследственный характер, а различия между особями и 
группировками по таким признакам могут быть связаны как с 
селективными, так и с другими процессами, идущими в популяциях. 
У многих животных и растений описан хромосомный полиморфизм, 
например по числу добавочных хромосом. У двукрылых методически 
удобно изучать инверсионный полиморфизм и другие хромосомные 
перестройки, позволяющие выявлять направление эволюционных 
изменений и характер внутривидовой дифференциации по блокам 
генов. В последние годы интенсивно изучают полиморфизм белков. 
Относительная простота методов зонального электрофореза и в 
большинстве своем четкая генетическая интерпретация “электро- 
морф" позволяют проводить широкие популяционные исследования 
на основе анализа частот аллелей и генотипов по ферментным и не- 
ферментным белкам У самых разных организмов. Помимо белкового 
полиморфизма, у позвоночных часто изучается полиморфизм по 
группам крови. Начинаются популяционные исследования по поли- 
морфизму ДНК в популяциях. 
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Перейдем теперь к другому типу изменчивости. Рассмотрим коли- 
чественные признаки. 

Количественными мы называет признаки, степень выраженности 
которых можно неформально характеризовать числом. 

Полезно выделить три типа количественных признаков. 

Дискретные признаки (иначе называемые счетными, или меристи- 
ческими) определяются путем подсчета. Например, число позвонков 
у рыб, число щетинок у мух, число определенных папиллярных ли- 
ний у человека, пульс и т.д. 

Непрерывные признаки (метрические, пласти ческие), определяемые 
путем измерений. Например, размеры и вес особей, активность фер- 
ментов и др. 

Дискретно-непрерывные признаки (квазинепрерывные, квазиаль- 
тернативные). Они определяются условным разбиением степени вы- 
раженности признака на дискретные классы. Эти классы могут быть 
выражены в числовой балльной оценке. Существенно здесь то, что 
границы классов могут пересматриваться в зависимости от степени 
изученности признака. К ним можно отнести, например, мульти- 
факториальные заболевания. Возможно, что в основе ряда таких 
признаков лежит непрерывная изменчивость. 

Подразделение признаков на качественные и количественные, ко- 
нечно, в чем-то условно. Например, большая часть индивидуальных 
генетических различий по активности кислой фосфатазы эритро- 
цитов у человека (признак с непрерывным распределением) 
определяется серией из трех наиболее частых аллелей одного гена 
(Харрис, 1973]. И наоборот, в основе качественных различий могут 
лежат количественные закономерности. 


Распределение признаков 


Рассмотрим вопрос описания группировок по данным о вариа- 
бельных, или, как еще говорят, изменчивых, признаках.В популя- 
ционной биологии исходной характеристикой группировки особей 
является статистическое распределение изучаемого признака. Крат- 
ко остановимся на основных понятиях теории распределений, под- 
робности -- в учебниках по биометрии и математической статистике 
[Ван дер Варден, 1960; Крамер, 1975; 5оКа!, ВоШЕ, 1981; Ѕасһѕ, 1982; 
Глотови др., 1982). 

Качественные признаки. Пусть А;, А», А.,...,А, — качественные 
вариации признака А; к — число этих вариаций. Долю особей 
фенотипа А; обозначим р;, долю особей фенотипа А,—р», фенотипа 
Аз—рзи т.д. Так как каждая особь имеет только одну из этих ва- 


риаций, то 

р! +р2+... + р = 1, 

т.е. доля особей всех фенотипов составляет 1 (или 100% ‚ если эти 
доли выражать в процентах). Величины ру, р›,....р; обычно называют 
частотами: р! — частота морфы А1, р — частота морфы А; и т.д. При 


изучении популяций можно выделить какую-то одну из морф и |. 
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В у б ж К В ж ГА К Ч 
Рис. 1. Столбцовая диаграмма 
Порядок расположения фенотипов может быть произвольным (а, б). Высота каждого 


столбика — это частота фенотипа, типа окраски (Б — белая, Ч— черная, С — серая, Ж — 
желтая, К — коричневая) 


следовать только ее частоту, отнеся остальные морфы к альтер- 
нативной группе "другие". 

Графически распределение качественного признака можно изобра- 
зить в виде столбцовой диаграммы следующим образом (рис. 14). 
Высота каждого столбика — это частота (иногда численность) 
соответствующего фенотипа. Порядок расположения морф по оси 
абсцисс, вообще говоря, неважен, он может быть любым (рис. 16). 
Говоря о графической форме представления данных, следует от- 
метить частое использование круговой диаграммы частот, наглядно 
показывающей характер распределения частот морф (рис. 2). Пред- 
ставляя данные о частотах наиболее характерных фенотипов (или 
других параметров) по нескольким полиморфным признакам, нередко 
используют так называемые полигоны Дебеца; здесь частоты откла- 
дывают на соответствующих радиусах единичной окружности (рис. 3). 

Количественные признаки. Вообще говоря, любой количествен- 
ный признак можно свести к качественному путем его дискретизации, 
т.е. выделения нескольких градаций этого признака. Для счетных 
признаков (т.е. тех, величина которых определяется путем подсчета 
и выражается в целых числах) эта дискретизация естественна. 
‚ Например, число ветвистых лучей анального плавника горбуши 
колеблется в норме.от 12 до 15 у взрослых особей. Поэтому есте- 
ственные градации здесь следующие: до 11, 12, 13, 14, 15, 16 и более. 
Когда градаций много, соседние можно объединять. Если признак 
мерный (т.е. величина его определяется: путем измерения), то его 
можно дискретизовать путем выделения условных градаций. Так, для 
признака “вес мужчин" в качестве градаций можно выделить, к 
примеру, следующие весовые группы: до 50 кг, 50—60, 60—70, 70—80, 
80—90, 90—100, свыше 100 кг. Доля мужчин в выборке, попадающих в 
определенную весовую градацию, будет являться оценкой частоты 
такой морфы. Обоснования для выделения градаций могут быть 
самыми разными. Например, для веса мужчин задать их соответ- 
ственно весовым категориям определенного вида спорта или же 
соответственно делению, принятому в антропологии и медицине. 
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Рис. 2. Круговая диаграмма частот 

Каждый из фенотипов представлен своим 
сектором. Площади секторов пропорциональ- 
ны частотам фенотипов 


Рис. 3. Полигон Дебеца 

Частота каждого фенотипа (А, В, С, РБ, Е) 
откладывается на соответствующем радиусе. 
Соединяющие их отрезки образуют много- 
угольник. Разные группировки различаются 
видом многоугольника (а, 6) 


Графически распределение счетного признака представляется в 
виде столбцовых или круговых диаграмм, так же как и для каче- 
ственного признака. Аналогично представление дискретизованного 
мерного признака (рис. 4,а). Высота столбика в середине классового 
интервала — это число или доля особей попавших в данную градацию 
признака. Часто такую диаграмму представляют в виде гистограммы 
(рис. 4,6), иногда в виде полигона частот (рис. 4,в). 

Таким образом, дискретизация позволяет формально свести коли- 
чественный признак к качественному. Поэтому все методы анализа и 
соответствующие популяционно-биометрические проблемы будут 
ограничиваться при этом лишь методами и проблемами, сущест- 
вующими для качественных признаков. Это, с одной стороны, до- 
статочно удобно, потому что теория анализа распределений каче- 
ственных признаков относительно проста и совершенно свободна от 
ряда предположений (например, гипотезы нормальности распреде- 
ления), характерных для многих стандартных алгоритмов анализа 
количественной изменчивости. Но с другой стороны, дискретизация 
количественных признаков ведет к значительной потере информации. 
Количественный признак отличается от качественного в первую оче- 
редь тем, что морфы (градации) количественного признака упоря- 


дочены по величине относительно друг друга. Например, для приз- 
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я Рис. 4. Представление Дискретизован- 
ного мерного признака 


а — столбцовая диаграмма, столби- 
ки — всередине классовых интервалов; 
б — гистограмма частот, площадки 
находятся над классовыми 
интервалами и проходят через вер- 
шины соответствующих столбиков рис. 
4 а,в — полигон частот, линия 
соединяет вершины столбиков 
представленных на рис. 4, а | 


ж 
нака число лучей в плавнике" морфа "14 лучей" следует за морфой 


"13", а она — за морфой "12" 
Ж : Для признака "вес мужчин" гра 
60—70 кг находится между градациями 50—60 и 70—80 1: 452 


дологическому вопросу 
ционных исследованиях. 


возможности анализа ОДНОЙ какой 
только количественных морфоло 
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полиморфных молекулярно-генетических маркеров). Но хотелось бы 
подчеркнуть, что, соединив в одном исследовании различные методы 
(в особенности методы количественной генетики и генетики менде- 
левской), можно получить более детальную информацию о структуре 
популяций и происходящих в них изменениях. 

Набор признаков должен быть связан с изучением эколого-гене- 
тических характеристик популяции и определяется целями и зада- 
чами конкретного исследования. Например, при изучении популя- 
ционной структуры вида следует выбрать такие признаки, чтобы они 
позволили удовлетворительно разделить популяции; признаков 
должно быть столько, чтобы увеличение их числа не приводило к 
существенному уточнению характера дифференциации популяций. 
Так, например, у тихоокеанских лососей для этого требуется не 
менее 20—30 морфологических признаков (уст. сообщ. М.К. Глубо- 
ковского). Для более детального популяционного анализа, когда 
желательно выделить, помимо крупных, еще и самые мелкие груп- 
пировки вплоть до семей и даже отдельных особей, может оказаться 
нужным гораздо больше признаков. Например, детальное сканирова- 
ние ареала прыткой ящерицы Гасепа аз Шз Г. потребовало изучения 
более 50 признаков [Баранов, 1984]. Важно не только количество приз- 
наков, но и их качество. Так, при изучении популяций сельскохозяй- 
ственных животных и растений на первый план выдвигается изу- 
чение признаков продуктивности, устойчивости к абиотическим 
факторам и заболеваниям, пригодности к существующим методам 
ведения хозяйства, иных важных свойств. Однако для других проб- 
лем, например оценки степени дифференциации пород животных и 
сортов растений, необходимо привлечь к анализу и другие признаки, 
не связанные непосредственно & хозяйственно ценными характери- 
стиками. При мониторинге природных популяций (в целях их охраны 
и воспроизводства) внимание должно смещаться на признаки адап- 
тивности, определяющие приспособленность особей к меняющимся 
условиям среды и антропогенным воздействиям; таких признаков 
тоже может оказаться немало. 

Таким образом, решение той или иной популяционной проблемы 
может быть связано с изучением и анализом комплекса признаков, 
особенности которых определяются этой проблемой. Сказанное вовсе 
не означает, что использование в популяционных исследованиях 
многих десятков признаков — необходимость. Нередко контрастные 
группировки заметно различаются уже по двум-трем признакам 
(потому они и контрастные), и эти признаки могут нести значимую 
информацию о популяционно-генетических основах их различий. Но 
эти два-три признака могут не уловить более тонкую организацию 
популяций, для этого требуется уже гораздо больше признаков. 

Наконец, подчеркнем, что в популяционных исследованиях крайне 
желательно иметь представление о генетической обусловленности 
изучаемых признаков [Глотов, 1983а; Драгавцев, 1984; Животовский, 
1984]. Поэтому в тех случаях, когда это возможно, исследования 
следует ориентировать на получение популяционно-семейного ма- 


териала. Такие данные возможно собрать, например, для сельско- 
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хозяйственных животных, для человека. Чаще всего, однако, гене- 
алогическую информацию нельзя получить; в первую очередь это 
относится к природным популяциям. В этих случаях желательно 
(если не сказать — обязательно) ставить специальные контролируе- 
мые скрещивания, изучать потомство от свободного скрещивания или 
вегетативное потомство. Проведение таких экспериментов (в природ- 
ных или хотя бы лабораторных условиях) всегда сопряжено с опре- 
деленными трудностями. Тем не менее эти эксперименты крайне 
необходимы. В них, помимо информации о наследовании (наследуе- 
мости) признаков, можно получить и другие данные, например о 
давлении отбора, генетическом сцеплении и др. И поэтому, проводя 
популяционные исследования, следует всегда отводить в них место 
таким экспериментам. 

Отметим вычислительные аспекты анализа большого числа приз- 
наков в популяционных исследованиях. Изучение комплекса призна- 
ков в популяциях сопряжено с анализом огромной первичной 
информации. Если учесть, что желательное число признаков — не 
менее двух-трех десятков, объем каждой выборки — 50—100 особей, а 
число выборок, необходимых для детального описания популяций, 
также может быть велико (достигая многих десятков, если не сотен), 
но "необозримость" такой информации становится очевидной. Поэто- 
му нередко обрабатывается лишь малая часть первичной информа- 
ции, доступная элементарному статистическому анализу; большая 
часть ее не анализируется. Со временем она теряется в кипах жур- 
налов наблюдений; и затем начинается новое изучение, отчасти дуб- 
лирующее прежнюю, но забытую работу. 

Поэтому в популяционных исследованиях первостепенную важ- 
ность занимает проблема глубокого информационного анализа и 
доступности первичного материала. Решение этой проблемы видится 
в создании банков популяционных данных и банков программ их 
анализа на основе широко распространенных компьютерных систем. 
Наличие таких банков позволит, с одной стороны, лучше планировать 
экспериментальыне и полевые работы с учетом ранее проведенных, а 
с другой — на базе доступного разнообразного первичного мате- 
риала апробировать вновь создаваемые методы анализа популяцион- 
ных данных и рационально планировать экспериментальные иссле- 
дования для их проверки. | 

И наконец, коснемся вопроса трудоемкости получения популяци- 
онных данных. Нередко на изучение нескольких десятков особей по 
20—30 морфологическим, физиологическим и молекулярно-генети- 
ческим признакам может уйти не один день работы, нередко много 
дней. А ведь в популяционных работах надо исследовать тысячи и 
десятки тысяч особей. И затем много времени затрачивается на ввод 
полученной первичной информации в компьютер. Поэтому важна 
автоматизация получения исходной информации и ввода ее в ком- 
пьютер. Такая автоматизация позволит еше шире и детальнее изучать 
природные популяции и популяции сельскохозяйственных растений 
и животных на основе анализа комплексов признаков. 
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$ 2. ВЫБОРКИ 


При изучении фенотипического и генотипического состава попу- 
ляций, в особенности природных, исследователям не под силу полу- 
чить данные о всех без исключения особях, так как численность их 
может достигать десятков, сотен тысяч, а то и миллионов. Поэтому 
популяции изучают путем выборочного обследования, беря ряд 
выборок, каждая из которых получена одномоментно или за опре- 
деленное время и является репрезентативной, т.е. объективно 
представляет половую и возрастную структуру популяции, ее про- 
странственную подразделенность и т.п. Обсудим теоретические и 
прикладные вопросы, возникающие в связи с понятием выборки в 
популяционных исследованиях. 

Чтобы обеспечить репрезентативность, следует детально знать 
биологию изучаемого вида, темпы его расселения и воспроизводства 
и т.п., с тем чтобы выделить внутривидовые группировки и их части. 
А вот чтобы изучить и охарактеризовать эти группировки и их части, 
требуется взять выборки, т.е. обследовать в каждой из них опреде- 
ленное число особей, описав их по ряду признаков. 

Возникают следующие вопросы: как брать выборку; сколь велика 
она должна быть; что эта выборка отражает; каковы ее статистические 
свойства. Теоретические и прикладные стороны этих вопросов мы 
обсуждаем здесь с позиций популяционного исследования. 


Теория выборок 


Понятие выборки. Выборка — это некоторое количество особей, 
выбранных из данной группировки в целях оценки параметров этой 
группировки. 

Например, деревья в данном насаждении, от которых взяты образ- 
цы семян или листьев для последующего определения их генотипов, 
образуют выборку, взятую из данного насаждения. Характерная осо- 
бенность большинства популяционных исследований заключается в 
том, что выборка содержит лишь малую часть исследуемой группи- 
ровки вследствие невозможности анализа всех составляющих ее осо- 
бей. И цель статистического анализа — судить о группировках, об их 
параметрах, например частотах аллелей, по данным этой выборки. 

С позиций данного определения выборка — это не обязательно 
одномоментно взятая группа особей. Таких групп может быть много, 
они могут браться в разных местах, а время взятия проб может быть 
разделено месяцами или даже годами исследования. Например, если 
нам важно оценить частоту спонтанно возникающих мутаций (скажем, 
У человека), то иногда мы вправе объединить данные разных иссле- 
дователей за разные годы, чтобы набрать достаточный объем мате- 
риала. В данном случае популяционно-биологической единицей 
исследования являются те группы населения, которые мы считаем 
более или менее однородными в отношении уровня мутирования 
данного гена. 


Если же мы изучаем пространственную структуру популяций, 6 


Генеральна 


именно эт 


© и подразумевает термин “слу- 


в некоторых случаях они доверили взять нужное количество эк- 
земпляров другим людям. Именно в этих выборках было обнаружено 

значительное уменьшение изменчивости размерно-весовых призна- 

ков рыб. Как потом выяснилось, рыбаки дали им рыбу не из сетей, как 
обычно, а из ящиков, куда укладывали рыбу, отвечающую стандарту, 

т.е. туда не попадали самые мелкие и самые крупные экземпляры. В 

результате — абсолютно неверный вывод о низкой изменчивости рыб 
в этих водоемах. 

Орудие лова, время и место поимки и др. — все это может повлиять 
на случайность отбора особей. Поведение особей при определенных 
методах сбора также может привести к смещенности и неслучайности 
выборки. Например, у наземного моллюска Сһопдгив ђійепѕ формы со 
светло- и темнокрашенной раковиной по-разному реагируют на 
температуру и освещенность |Алтухов, Лившиц, 1978]. Поэтому здесь 
сбор материала только в холодное или только в жаркое время, 
только днем или только вечером мог бы дать ложную информацию о 
фенотипическом составе популяции. Едва ли можно получить абсо- 
лютно случайную выборку, но надо пытаться избегать заведомо зна- 
чительных отклонений ее от случайности. 

Нарушение принципа случайности может привести к серьезным 
ошибкам в выводах. Приведенные примеры наглядно это демонстри- 
руют (см. подробное обсуждение принципа случайности: (Глотов и 
др., 1982, гл [\]). В практических исследованиях, когда изучаются 
сложноорганизованные совокупности, одной выборкой не обойтись, 
их должно быть много. Подобная сеть выборок также должна быть 
репрезентативна, т.е. адекватно представлять различные группи- 
ровки. Но при этом еще каждая выборка должна быть обязательно 
случайной в отношении той группировки или той ее части, которую 
она представляет. 

Почему важен принцип случайности выборки? В некоторых слу- 
чаях это ясно. Например, в ряде руководств можно встретить 
методики отбора так называемых типичных особей, т.е. особей, близ- 
ких по ряду морфофизиологических признаков к наиболее часто 
встречающимся, т.е. средним, фенотипам. Такая методика сама по 
себе может быть нужной, например для подбора животных в экспе- 
риментальную группу (где важна выровненность особей по ряду 
показателей). Однако в популяционном исследовании такая выборка 
не может служить представителем всей группировки, так как из нее 
заведомо исключаются менее типичные особи, которых, кстати, 
может быть много. Это ведет к неверным оценкам: занижению 
внутривидового разнообразия, смещению межгрупповых различий, 
искажению оценки вкладов популяционно-генетических факторов. 

Но в целом необходимость случайных выборок имеет более глу- 
бокие корни, уходящие в методологию математической статистики. 
Для объяснения этого нам придется опять обратиться к понятию 
генеральной совокупности, но не реальной, как выше, где выступали 
группировки особей, а абстрактной. 

Предположим, что в данной выборке, взятой из определенной 
группировки, мы вычислили некий параметр р. Для определенности в 
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Рис. 5. Распределение частоты Гетерозигот ВВ по локусу Маһ-3,4 у 


горбуши курильской 


качестве параметра рассмотрим частоту гетерозиготных особей ВВ 
по локусу Май-3,4 у горбуши Опсогһупсһиѕ рогризсна. Например, в 
выборке, отловленной 13 сентября 1981 г. в ручье Кетовом ‘приток р 
Курилка о-ва Итуруп Курильской гряды), среди 25 самок были 
обнаружены три особи генотипа ВВ; остальные — гомозиготы ВВ 
Таким образом, частота гетерозигот здесь равнар = 3/25 = 0 12. 
Величина р = 0,12 — это характеристика данной выборки. ЕСЛИ | 
рассматривать выборку как единицу наблюдения, то параметр р — ее 
признак. 

Выборка — это представитель группировки, но, очевидно, она лишь 
приближенно характеризует эту группировку. Действительно, наша 
конкретная выборка — лишь одна из множества возможных. В тот же 


возможные варианты выборок из одной группировки. Тогда оценки 
параметра р для всех этих возможных выборок из одной и той же стаи 
рыб (реальной генеральной совокупности) образовали бы целый 
спектр значений. Этот спектр значений параметра р и является в 
данном случае "абстрактной" генеральной совокупностью. Эта 
абстрактная генеральная совокупность описывается вероятностным 


ӘРСЕН повторных выборок из одной и той же стаи рыб. Из нашей 
абстрактной генеральной совокупности мы случайно "извлекли" лишь 


один элемент — нашу конкретную выборку, а вероятностное распре- 
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деление этой абстрактной генеральной совокупности охарактери- 
зовали единственным наблюдением, одной случайной величиной — 
оценкой частоты р = 0,12. Как нам судить об этом распределении? 

Для рассматриваемого признака (генотипы ВВ по локусу Май-3,4 У 
горбуши) мы можем получить приблизительное генеральное распре- 
деление величины р, воспользовавшись тем, что азиатская горбуша в 
пределах отдельных регионов (в частности, курильская горбуша) 
относительно однородна по частотам многих аллелей. Поэтому мно- 
го выборок, взятых в ряде рек о-ва Итуруп, могут быть в данном слу- 
чае аналогами повторных выборок из одной группировки. 

С другой стороны, мы можем получить генеральное распреде- 
ление теоретически. Из теории вероятностей известно, что если 
генеральное значение частоты фенотипа в группировке обозначить т, 
то вероятность того, что в случайных выборках объем М выборочная 
оценка р равна К/М (где — число гетерозигот ВВ в выборке), 


распределена по биномиальному закону о т#(1- пт) Е. На рис. 5 


показано фактическое и теоретическое распределение частоты гете- 
розигот ВВ по локусу Май-3,4 у производителей горбуши охотомор- 
ского побережья о-ва Итуруп в 1981 и 1983 гг. Всего имели 23 выборки 
объемом по 50 особей (самок и самцов поровну). Каждая выборка 
разбивалась на две субвыборки (самок и самцов) объемом по 25 осо- 
бей. Поэтому гистограмма представлена 46 значениями частот. В 
качестве т взято среднее по всем 46 субвыборкам: р = 0,127. 

Гистограмма показывает качественное и довольно хорошее соот- 
ветствие фактического и теоретического распределений. А раз 
распределения близки, то свойства этих распределений также близки. 
Поэтому в качестве базисного мы можем в данном случае выбрать как 
фактическое, так и теоретическое распределение и, основываясь на 
нем, делать затем соответствующие статистические выводы. 

На самом деле, однако, мы никогда не имеем повторностей. Даже 
показанное на рис. 5 фактическое распределение отражает, вообще 
говоря, выборки из разных, правда близких, генеральных совокуп- 
ностей. Поэтому мы вынуждены основывать свои заключения, опи- 
раясь только на свойства теоретического распределения, т.е. распре- 
деления оценок параметров абстрактной генеральной совокупности. 
В то же время из теории математической статистики известно, что 
используемые в приложениях теоретические распределения спра- 
ведливы лишь для случайных выборок. Поэтому принцип случай- 
ности (т.е. равновероятности) отбора особей -- неотьемлемое требо- 
вание популяционного исследования, раз уж оно обращается в целях 
анализа к методам математической статистики. 

Таким образом, принцип случайности позволяет теоретически 
описать распределение оцениваемого параметра в генеральной 
совокупности, состоящей из всех мыслимых случайных выборок 
данного объема, которые можно было бы извлечь из обследуемой 
группировки. И самое главное здесь это то, что наша единственная 
реальная выборка подчиняется этому распределению лишь тогда, 


когда она случайна. Это основа статистических методов. 19 


Основные выборочные распределепия 


Вообще говоря, существует множество теоретических распреде- 
лений, играющих значительную роль в теории вероятностей и мате- 
матической статистике. Немало их и в тех разделах, которые прямо 
связаны с проблемами биометрии [Глотов и Др., 1982]. Здесь мы кратко 
охарактеризуем наиболее важные распределения, используемые в 
этой книге. 

Биномиальное распределение. По биномиальному закону, как 
уже упоминалось, распределена выборочная оценка частоты опре- 
деленного фенотипа. Пусть т — генеральная частота изучаемого 
фенотипа, т.е. его частота среди всех особей изучаемой группировки. 
Однако эта генеральная частота неизвестна, но именно она нам 
нужна. Поэтому практически она заменяется приближенной оценкой, 
полученной по данной выборке объема М. Для того чтобы судить о 
точности этой оценки, представим себе, что имеется много слу- 
чайных выборок объема № из данной группировки. Вероятность того, 
что в случайной выборке объема М будет обнаружено К особей 
данного фенотипа (т.е. вероятность того, что частота фенотипа в 
выборке будет р = К/М), равна 


Р = Супа — пм, 


Это и есть биномиальное распределение с параметрами т и №. Вид 
его для т = 0,2, п=0,5ит= 0,9 при различных значениях М показан 
на рис. 6. Это распределение возможных оценок частоты р в выборках 
объема М. 

Математическое ожидание для этого распределения равно т: %(р) = 
т. Следовательно, выборочная оценка частоты р = А/М несмещенная. 
Несмещенность оценки в математической статистике означает, что эта 
оценка колебалась бы около истинного (генерального) значения т, 
имей мы возможность извлекать много случайных выборок из данной 
генеральной совокупности. ‚Дисперсия оценки Ур) = п(1 — туУ- 
разброс выборочных оценок частоты вокруг т. (В дальнейшем сим- 
волы У(р) и У, будем использовать как равнозначные при обозначении 
дисперсии оценки.) Это своего рода мера близости выборочной 
оценки р к генеральному значению т. На рис. 6 видно, что с уве- 

личением М разброс оценки от выборки к выборке уменьшается. На 

практике в качестве точности оценки часто берут не дисперсию оцен- 
ки Ур), а ее стандартное отклонение, т.е. корень квадратный из дис- 
персии, называемый обычно стандартной ошибкой, нередко как сино- 
ним статистической ошибкой, а иногда ошибкой выборочности или 
просто ошибкой: 


5р = МИ(р). 


В данном случае 
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Рис. 6. Биномиальное распределение _ 
а, б, в — различные численности выборки (М = 5, 10, 20; г— нормальное приб 


лижение при большом объеме выборки; п — генеральное значение частоты (0,2; 0,5; 0,9) 


Поскольку генеральное значение т обычно неизвестно, в качестве 
ошибки берут ее приближенное значение, заменяя в формуле т на вы- 


борочную оценку р: 


Ра — р) 
но 
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Полиномиальное распределение. Пусть в генеральной сово- 
купности имеется К различных фенотипов (вариаций данного приз- 
нака) с частотами т), По,..., п, причем т; +... + лу = 1. Если в 
случайной выборке объема М встретилось №; особей первого 
фенотипа, №, — второго... №, — К-го фенотипа (М, +... + №, = №, то 
оценки их частот следующие: 


Рі = №№, Ро = М/М,..., Рк = №ММ. 


Каждая из этих оценок р; в отдельности распределена по биноми- 
альному закону со средним и дисперсией, равными т; и т(1 — т//М 
соответственно. Но если нас интересует оценка совокупности фено- 
типов, то следует знать совместные (а не частные) их распределения. 
Это полиномиальное распределение 


М! № № 


№, ...№) = 
Ан ТЕТІН 


где Р(М|.,....Мұ) — вероятность иметь в случайной выборке объема № 
указанное число особей разных фенотипов: №, — первого, № — вто- 
рого... №; — К-го фенотипа. 

Нормальное распределение. Это классическое распределение 
математической статистики (рис. 7; табл. [ Приложения). Важность его 
объясняется следующими причинами: 1) оно является предельным 
для многих распределений. Например, биномиальное распределение 
трудно определить с вычислительной точки зрения для выборок 
большого объема. Однако известно, что как раз в этом случае 
распределение оценки р = А/М с достаточной точностью описывается 
нормальным распределением со средним значением т и дисперсией 
т(1-- ту/М. Это обстоятельство значительно упрощает и теорию, и 
вычислительные процедуры; 2) выборочные оценки средних значений 
даже ненормально распределенных количественных признаков до- 
статочно хорошо описываются нормальным распределением со сред- 
ним значением, равным генеральному среднему значению, и диспер- 
сией 02/М, где 02 — генеральная дисперсия исследуемого признака. 
На рис. 8,а показано распределение признака "фотоактивность", выра- 
жаемого в баллах от 0 до 5, которое было получено в одной из линий 
дрозофилы О. те!апоразег. Видно, что распределение признака ничуть 
не похоже на нормальное, оно даже бимодально. На компьютере было 
имитировано 100 случайных выборок по 25 особей и получено 100 
оценок среднегозначенияфотоактивности. Распределение этих оце- 
нок приведено на рис. 8, б, из которого видно, что оно практически 
нормально. 

Таким образом, важность нормального распределения не в том, 
что многие признаки близки к нормальности; это нередко выдвигают 
в качестве аргумента полезности нормального распределения. Нап- 
ротив, сами признаки чаще всего распределены по каким угодно зако- 
нам, но только не по нормальному: хоть какие-нибудь отклонения от 
него да есть (см. $ 1). Однако выборочные оценки параметров часто 
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Рис. 7. Вид нормального распределения М (и, д?) 


Цифра — размер соответствующей площади (в %) или вероятность попадания слу- 


чайной величины в указанный интервал 


01 2.3 % 03 1222.24 % 9 


Рис. 8. Распределения признака "фотоактивность” у дрозофилы (а) и оценок его 


среднего значения (6) 
Хотя распределение самого признака далеко от нормального, оценка средней 


фотоактивности близка к нормальному распределению 


следуют нормальному распределению или его производным. И в этом 
основное достоинство нормального распределения. 

Напомним 06 остальных важнейших распределениях биометрии, 
описывающих выборочные характеристики. 

Х2-распределение. В математической статистике часто многие 
критерии и методы оценки параметров сводятся к суммам случайных 
величин следующего типа: 


я — Хх, — 
= Еш ПІРГЕ УИ |, 
бі Су 


Х 


где х, — случайная величина, распределенная по нормальному за- 
2.5222 
кону с математическим ожиданием |ш и дисперсией с; (это записы- 


ӘЛЕН да т 2 
вается как Яо. Аналогично 5 ~ (0,05)... М (ц.о; ). Рас- 


пределение случайной величины 32 называется х2-распределением с 
числом степеней свободы, равным у. Вид этого распределения для 
различных значений у показан на рис. 9. При у= | иу = 2 функция 
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Рис. 9. ҳ2-распределение при различных степенях свободы у 
Рис. 10. Уровень значимости 
Уровень значимости о — это вероятность того, что значение исследуемой ста- 


тистики, распределенной по некоторому закону (представленному на рисунке), не 
меньше, чем полученная в эксперименте конкретная величина х 


плотности монотонно убывает, при у > 2 она является унимодальной 
с правосторонней асимметрией. Асимметрия уменьшается с увели- 
чением у. 

В математической статистике важной характеристикой является 
уровень значимости. Он определяется как вероятность того, что слу- 


Е 2 
чайная величина, распределенная по данному закону, например х 


и? 


будет больше конк ретного (полученного в эксперименте) значе- 
ния Х2. Обозначают уровень значимости обычно о, геометрически — 
это заштрихованная площадь под кривой на рис. 10. Отметим следую- 
щее обстоятельство. Как правило, в руководствах по биометрии дают 
таблицы для х?-распределения (и не только для него) лишь при 
нескольких уровнях, или, как еще говорят, порогах значимости: 0,10: 
0,05; 0,01; 0,001 и все. Но иногда требуется знать более или менее 
точно величину а. Например, если Х2 = 7,8 при у = 2, то по таким 
таблицам можно определить лишь, что уровень значимости с на- 
ходится между 0,05 и 0,01 (точная же величина о равна примерно 
0,02), Кроме того, бывает важно знать о, даже если а > 0,10. Поэтому 
мы даем более подробную, чем принято, таблицу х?-распределения 
(табл. П Приложения). Так как интервал между соседними а в таблице 
достаточно велик, при промежуточных значениях следует пользо- 
ваться интерполяционной формулой 


= 041 (2 / оц), 


4 


2 2 2 
где і = (к — Хх, =.) 
Хх? 2 2 Е В 
— вычисленное значение, хз и хт — ближайшие окаймляющие таб- 


2 2 
личные величины: хі < Х2 < хо. Например, пусть для у = 4 получено 


значение Х? = 6,24. Окаймляющие табличные значения для у = 4 сле- 
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дующие: ж = 5,99 (0 = 0,2), х? = 7,78 (4 = 0,10). Следовательно: { = (7,78 — 


6,24)/(7,78 — 5,99) = 0,860, откуда уровень значимости (для Х? = 6,24 
при т = 4) а =0,2(0,1/0,2)0:86 = 0,11. 

При определении уровней значимости возникает вопрос: что де- 
лать, если число степеней свободы больше табли ново: Известно, что 
только при очень больших у (порядка 100 и больше) х?-распределение 
аппроксимируется нормальным распределением с математическим 
ожиданием у и дисперсией 2у. Однако существуют преобразования, 
которые близки к нормальному распределению и при меньших ве- 
личинах у. Одним из таких преобразований является 


2 
Х 2 
ИА рес | 
2 у 9% 
Уже при небольших у оно близко к стандартному нормальному 
распределению (у которого среднее равно 0, а дисперсия 1). 


Рассмотрим пример. Пусть у = 47, Х2 = 57,4. Находим преобра- 
зованное значение 


47( [574 2 
= 31 |0 101,07. 
из Дау +947 


Обратившись теперь к таблице стандартного распределения (см. 
табл. 1), видим, что значение И = 1,07 примерно соответствует уровню 
значимость а = 0,142. Отметим также, что это преобразование удов- 
летворительно даже при очень малых величинах т. Возьмем для 
примера у = 5, Х? = 15,09 (по точной таблице ему отвечает уровень 
значимости, равный 0,01). Проверим, что покажет преобразование. 
Имеем 


Из таблицы нормального распределения следует, что уровень зна- 
чимости примерно равен 0,0102, т.е. с практически удовлетвори- 
тельной точностью совпадает с 0,01. 

Следует отметить, что у может быть нецелым числом. Это может 
показаться странным на первый взгляд, но вполне допускается общей 
теорией вероятностных распределений [Крамер, 1975]. Однако обще- 
известные статистические таблицы табулированы только для целых 
значений степеней свободы у. Поэтому рядом авторов предложены 
приближенные формулы вычисления критических значений х“ для 
наиболее распространенных "пороговых" уровней значимости (0,05; 
0,01; 0,001) при нецелых у. Наиболее удобной представляется следую- 
шая формула [СШен, 1977): - 


х? (у) = а) + У + азу? + аз ШУ. 
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Таблица 1 


Коэ ; 
ффициентыа; для вычисления пороговых значений 


числом степеней свобо ды [СПЬеп, 1977] распределения х2 с дробным 


Уровень 
значимости 


0,05 2,5182 


1,2822 
За З —0,0021 
у Кы 1,4028 —0,0030 е 
‚2059 1,5425 --0,0041 2,3140 


Коэффициенты 
до, 41, а), аз даны в та 
ней значимости. бл. 1 для указанных в ней уров- 


Пусть, н = 
ВЕ и е ре у = 4,81. Для этого числа степеней свободы кри- 
Е» сова срез и "хи-квадрат" для & = 005 ыз 
81) =2, 2822. 4,81 — 0.0021 14,8 | 
Е А А - 4,81 + 1,3712т4 81 = 10,79 
числяются кри к к | 
о ритические зна 

В закл 
ючение отметим важнейшее свойство Х2-распре е 
его аддитивность. А именно, если аа 2. 
: 1, №, Ха — случайные в | 

215 еличины, 
дая из которых распределена по закону х2 с числом степеней 
и 


свободы 
ды сответственно и, у, ..., Ут, то сумма этих величин32-Ұ да + 


-2 
Хи, также расп 

аа распределена как х2 с суммарным числом степеней свободы! 
Д Ж 


получим 
Х2- 22,5,у-12, откуда с > 0,025. 


ЗЕ образом, объединение даннъх 
Е ; 
ает уровня значимости 0.05, привело к уменьшению уровня 


{- асп е я у Т 
часто встреч І + являющееся к бина ией 
указаннъ 2 2 — личин - 
Хх. Пус ьи мг (0; 1), ах случайная величи а 


35 -4 -3 -2 -1 0 1 2 5 4 4. 
Рис. 11. Распределение Стьюдента 


деленная по закону Х? с числом степеней свободы у. Если й и 22 
независимы, то распределение отношения 
|2 
іс ШУХ“/у 
называется распределением Стьюдента, или {-распределением. Оно 


также табулировано (табл. Ш Приложения}. Единственный параметр 


этого распределения — число степеней свободы у. 
Распределение Стьюдента симметрично относительно оси ординат 


(его математическое ожидание равно нулю; рис. 11). Поэтому обычно в 
таблицах приводят только положительные значения г. При доста- 


точно больших у (практически при у> 30) распределение Стьюдента 
апроксимируется стандартным нормальным распределением. , 

Е-распределение. Рассмотрим еще одно важное распределение, 
встречающееся в биометрии. Пусть Ха и ж -- независимые случайные 
величины, имеющие распределение х? с числом степеней свободы у; и 
у, соответственно. Тогда распределение случайной величины 


называется распределением Снедекора--Фишера, или Ғ-распределе- 
нием. Это распределение в отличие от ҳ2- и !-распределения имеет 
два параметра: число степеней свободы числителя и число степеней 
свободы знаменателя — у; и у». Общий вид Ғ-распределения показан 
на рис 12. Из определения следует, что случайная величина 1/Ё так- 
же имеет Е-распределение, но с числом степеней свободы у, и у;, от- 
чего форма этого распределения имеет своеобразную симметрию: 


Е—а(\2,\1)=1/ Е (м, У2). 


Поэтому в таблицах обычно дают значения для Е, больших 1. 
27 


ЫЗА алынатыны еге 


Рис. 12. Распределение Фишера 


В табл. ГУ Приложения приведены пороговые значения Е-распре- 
деления для стандартных уровней значимости (0.05; 0,01; 0,001). 
Однако (как и для ҳ2) необходимо порой знать более или менее точно 
уровни значимости. Для этого также дана подробная таблица уров- 
ней значимости для числа степеней свободы от 1 до 5 (табл. У При- 


ложения). Так как интервал значений между соседними уровнями до- 
статочно велик, то надо использовать следующую интерполяционную 
формулу [2іпрег, 1964]. Пусть для данных степеней свободы у; им, 
вычисленное значение Р находится между соседними табличными 
значениями Ғ,иҒ,:Ғ,<Ғ<ЕҒ, Пусть 01 и «> — уровни значимости, 


отвечающие этим табличным значениям. Тогда уровень значимости а 
для Е определяется по приближенной формуле 


где 


г= (Е — Р) (Б — В). 


Например, пусть у= 2, у. = Зи Е- 11,2. По таблице находим 
"окаймляющие "значения: Е, = 9,55 (4) = 0,05) и Е. = 16,04 (а, = 0,025). 


Так как /=(16,04—11 ,20)/(16,04—9,55) = 0,746, то 0=0,05(0,025/0,05)0746 = 
= 0,030. | 


Если обе степени свободы превышают 5, то можно воспользоваться 
нормальной аппроксимацией [Раш5оп, 1942]. 


ЕЕ 
9у2 9у 


Ис-ңҢ------д-----------------“ 


ЕЯ. ке 
9у2 9% 
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Например, пусть у, = 4, у, = 11, Е = 3,62. Тогда 


По таблице нормального распределения этому значению и отве- 
чает уровень значимости а = 0,031. 

Отметим, что важность К-распределения еще и в том, что оно 
точно описывает биномиальное распределение. Пусть р — доля в 
группировке особей данного конкретного фенотипа. Тогда вероят- 
ность того, что в случайной выборке объема № содержится не менее 
чем х таких особей, равна 

ЕД 
р М-х-1 


где м, = 200№ —х + 1); и, =2 х. Это выражение используется как при по- 

строении доверительных интервалов, так и в критериях сравнения. 
Укажем, наконец, что если число степеней свободы знаменателя 

велико (у; > 500--1000), то можно воспользоваться х?- аппроксима- 


2 2 
цией: Бу|- Х» Аналогично, если у, велико, то1/Ғ р, ~ Ху; 


И в заключение отметим, что существуют компьютерные програм- 
мы, позволяющие находить значения основных вероятностных рас- 
пределений для любых значений параметров. 


$ 3. МАТЕМАТИЧЕСКИЕ МЕТОДЫ 


Методы анализа изменчивости в популяциях разнообразны и зиж- 
дятся на различных математических дисциплинах. Так, обработка 
данных популяционного исследования опирается на аппарат мате- 
матической статистики и информационного анализа; рассмотрение 
комплекса признаков и классификация особей или группировок тре- 
буют обращения к методам многомерного анализа и теории матриц; 
моделирование популяционных процессов основано на теории диф- 
ференциальных и разностных уравнений. Поскольку все указанные 
вопросы возникают в популяционной биометрии, мы сочли необходи- 
мым в краткой форме изложить основы этих разделов математики. 


Основные принципы статистики 


В популяционных исследованиях основной аппарат анализа дан- 
ных — биометрия, все методы которой — это методы математической 
статистики. Ее принципы и методология хорошо известны, и нет 
нужды здесь подробно излагать их (см.: [Ѕасһѕ, 1982; Глотов и др., 
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1982]. Тем не менее для полноты изложения мы кратко напомним 
хорошо известные понятия математической статистики. Некоторые из 
них детально рассмотрены в предыдущих параграфах. Следует от- 
метить, что ряду разделов статистики не придается особого внима- 
ния и многие важные, на наш взгляд, идеи не находят отражения в 
пособиях по биометрии. Между тем их использование нужно как для 
понимания принципов оценивания параметров и их сравнения, так и 
для увеличения надежности анализа популяционно-биологического 
материала. Поэтому в данном разделе мы коснемся и этих редко 
используемых методов. 

Оценка параметра и ее свойства. Анализ популяционной из- 
менчивости глубоко связан с понятием генеральной совокупности и 
выборки, теорией вероятностных распределений и природой анали- 
зируемых признаков. 06 этом мы уже говорили. Допустим, что в 
результате популяционного обследования взяты выборки и мы рас- 
полагаем данными о признаках особей из этих выборок. Что делать 
дальше? Наиболее общей характеристикой изменчивости особей в 
выборке является распределение изучаемого признака. Поэтому 
анализу выборочных распределений в биометрии придается большое 
значение. Действительно, если имеется определенная статистическая 
модель изменчивости, то проверка соответствия фактических данных 
этой модели позволяет выявить новые факты. Например, класси- 
ческой моделью редких событий является распределение Пуассона. В 
книге Н.В. Глотова и др. [1982] даны примеры того, как анализ 
отклонения от этой теоретической модели распределения привел 
исследователей к важным выводам о природе мутационных событий. 
Сравнение с тем или иным теоретическим распределением важно так- 
же в качестве вспомогательного средства при выборе того или иного 
статистического метода. Например, если мы сравниваем несколько 
выборок по количественным признакам, то при нормальности распре- 
делений предпочтительным является классический метод Колмо- 
горова—Смирнова. Если распределения близки к логистическому (ха- 
рактеризующемуся более "тяжелыми" хвостами), то оптимальным яв- 
ляется критерий Крускалла—Уоллеса. А если сравниваемые распре- 
деления имеют тяжелые хвосты или имеется много "выбросов", то 
лучшим уже становится медианный критерий. Сопоставление двух 
или нескольких выборочных распределений позволяет выявить, раз- 
личаются ли в принципе наши выборки (точнее, те группировки, из 
которых эти выборки были взяты). Что касается сравнения выборок по 
частотному распределению качественных признаков (например, кри- 
терием “хи-квадрат”, то это вообще частая задача популяционного 
анализа. 

Тем не менее, несмотря на то что сравнение распределений — 
нередко нужная и полезная часть статистического анализа, все жев 
популяционных исследованиях большее значение имеют оценки и 
сравнение не самих распределений, а их определенных числовых 
характеристик — параметров. Это, конечно, не означает, что анализ 
распределений признака в выборках — второстепенная задача. Нап- 
ротив, такой анализ необходим, особенно если он приводит к более 
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реальной статистической модели изменчивости и существенно новым 
параметрам. Но все же основными характеристиками в большинстве 
задач популяционной биологии являются параметры: частоты 
аллеля, генотипа или фенотипа, изменчивость признака, сходство 
между группировками, степень ассоциации признаков и др. 

Истинное (генеральное) значение параметра (в генеральной сово- 
купности) нам неизвестно. О нем мы можем судить лишь приближенно 
по данным случайной выборки. Формулу, на основе которой мы 
можем по данным о признаках особей из выборки вычислить это 
приближенное (выборочное) значение параметра, называют оценоч- 
ным правилом (англ. — езита юг), иногда — оценивающей статисти- 
кой; нередко ее называют оценкой. Не следует это путать с оценкой 
(англ. — езНтае), под которой понимают конкретную числовую вели- 
чину оценивающей статистики для конкретной выборки. Например, 


М 
1 = : Е 
52= тъ У (а--Х)? является оценивающей статистикой для дисперсии 
ізі 


02; конкретное ее значение (например, 52 = 3,62) — это оценка. В книге 
Для краткости будем употреблять термин "оценка" в обоих смыслах, 
когда это не ведет к путанице. 

Один и тот же параметр можно оценивать различными статис- 
тиками. Например, кроме указанного выражения для 52, дисперсию 
признака 0? можно оценить также по размаху выборки 4 пах — Хан, 
где коэффициент 4 зависит от объема выборки, можно оценивать по 


| 1 Г 
абсолютному отклонению >> |х; — и по множеству других 


статистик. Эти оценки (оценочные правила) отличаются друг от друга 
своими статистическими свойствами. Что требуется от оценок и 
какие из них лучше? Перечислим наиболее важные их свойства. 

Пусть имеется генеральная совокупность. Как говорилось выше 
($ 2), описать генеральную совокупность — это указать ее вероят- 
ностное распределение. Обозначим его Г. Пусть р-параметр этого 
распределения, подлежащий оцениванию, например им может быть 
среднее значение (математическое ожидание) этого распределения; 
М — оценочная функция (оценка) этого параметра. Например, среднее 
арифметическое является оценочной функцией математического 


1 
ожидания М = м (х, + хо... + хм). Оценочная функция не единственна, так 


оценкой математического ожидания может быть полусумма 
минимального и максимального членов вариационного ряда М = 


1 Е 
= 5 так + Хам), Медиана М = тедОп,..., ху) и множество других функций. 


Конкретная величина оценки М для данной выборки объема № 
является случайной величиной, отражающей случайность выборки. 
Представим себе множество всех мыслимых случайных выборок 
объема № из генеральной совокупности (группировки), неизвестный 
параметр которой у мы хотим оценить. Для данной оценочной 
функции этому множеству выборок отвечает множество выборочных 


значений оценки М. Эти значения как случайные величины имеют 
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Рис. 13. Теоретическое распределение 
выборочных оценок генерального па- 


раметрац 
Оценки М), Мә... группируются 

вокруги 

Рис. 14. Состоятельность оценки па- 

раметрац 


а, б, в последовательно предс- 
тавлено возрастание объема выборки. 
При этом распределение выборочных 
оценок "сжимается" к параметру р 


Му Мур Мұ м 


ə“Ң-------%--%-0---.------------0-00-:---------.-..-..- 
р р Е 


определенное теоретическое распределение (см. $ 2). Оно характери- 
зуется средним значением, или, как принято говорить для распре- 
делений, математическим ожиданием (обозначим его Ем) и диспер- 

сией Ум. Значение оценки для конкретной выборки из генеральной 

совокупности с параметром р, может быть, вообще говоря, любым, нов 
пределах распределения (с соответствующей вероятностью; рис. 13). 

Оценка М называется состоятельной, если с увеличением объема 
выборки все ее выборочные значения приближаются к генеральному 
значению параметра у. 

Состоятельность оценки означает, что при увеличении объема вы- 
борки распределение выборочных оценок все более концентрируется 
вокруг генерального значения параметра. Свойство состоятельности 
гарантирует точность оценивания ц в выборках большого объема. 
Если оценка состоятельна, то ее дисперсия Ум -> 0 с ростом М 
(рис. 14). Здесь совершенно ясным становится смысл статистической 


ошибки 5м = үу», как меры точности оценки џ. 

Оценка М называется несмещенной, если Ем= р. Оценка смещен- 
ная, если Ем р; величина р, — Ем называется смещением. 

Несмещенность — очень важное свойство. Оно говорит о том, что в 
расчетах нет систематической ошибки и лишь случайность выборки 
ведет к колебаниям конкретных значений оценки вокруг генераль- 
ного параметра. Отметим, что смещенность и состоятельность — не 
противоречивые свойства. Оценка может быть состоятельной, но сме- 
щенной. В этом случае состоятельность означает, что величина 
смещения стремится к 0 (и – Еу э 0) с увеличением объема выборки. 
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Как отмечалось, один и тот же генеральный параметр и можно 
оценивать различными функциями. Пусть С иная, чем М, оценка па- 
раметра |, вычисляемая по тем же выборкам, что и М. Эта оценка так- 
же может обладать или не обладать свойствами состоятельности и 
несмещенности, будет иметь свою дисперсию Ус. Как сравнить друг с 
другом разные оценки? 

Оценка М называется эффективной, если для выборок данного 
объема ее дисперсия минимальна по сравнению с дисперсиями 
других оценок: Ум=Ус для любых С. 

Эффективность — это, по сути дела, полное, “стопроцентное" ис- 
пользование информации, полученной ввыборочном обследовании. 
Пусть, например, генеральное распределение признака нормально и Ц 
— это его математическое ожидание. Тогда среднее арифметическое х 


1 
ту ба +...+ху) является эффективной оценкой (а также несмещенной и, 
м М. 


состоятельной). Можно взять другую оценку величины |, например 
медиану выборочных значений Х = тей (Х1, х›,..., ху) (см. $ 1 гл. 2). Для 
нормального распределения она также является несмещенной и 
состоятельной. Однако она неэффективна, ибо ее дисперсия больше, 
чем дисперсия среднеарифметической оценки х (при больших М 
примерно в 7/2 = 1,57 раза). Это означает, что для достижения той же 
точности, что и среднеарифметическое, медианная оценка требует в 
1,57 раза большего объема наблюдений. Таким образом, 
неэффективность не означает, что оценка негодна. Просто она имеет 
большую статистическую ошибку, чем более эффективная оценка. 

Отметим следующее существенное обстоятельство: эффективность 
определяется по отношению к генеральному распределению призна- 
ка. Изменится оно, изменится и соотношение между оценками. Напри- 
мер, оценка Х эффективнее медианной оценки при оценивании гене- 
рального среднего для признаков с нормальным распределением. Од- 
нако если распределение признака отлично от нормального, допус- 
тим остается симметричным, но имеет "тяжелые" хвосты, обуслов- 
ленные "примесью" или иными причинами, то медианная оценка Х го- 
раздо эффективнее средней арифметической Х при решении прежней 
задачи — оценивании генерального среднего значения |. Зффектив- 
ность — это свойство, прямо связанное с мощностью статистических 
сравнений, о которой речь еще будет идти. 

Важнейшее требование к оценкам — их стабильность. Например, 
все, имеющие дело с экспериментальным материалом, прекрасно 
знают, что часто встречаются "выбросы" из общей картины изменчи- 
вости. И хотя они не очень сказываются на оценках параметров поло- 
жения, т.е. параметров, характеризующих "центр" распределения 
(например, среднего значения), но заметно влияют на такую оценку 
вариабельности, как, скажем, дисперсия. Поэтому важно, чтобы оцен- 
ки были стабильными по отношению к резко отклоняющимся наблюде- 
ниям. Есть несколько иной тип стабильности оценок — так называе- 
мая робастность, т.е. устойчивость к предположениям, характери- 
зующим данный статистический метод (например, к виду распределе- 
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Рис. 15. Доверительный интервал и доверительная вероятность х 

а — пунктирной линией обозначено теоретическое распределение вы оын 
оценок; сплошная линия — это же распределение, в котором в кача ада таят 
выборочная оценка М. Г, — доверительный интервал, с доверительно БЕР А 
Р содержащий генеральный параметр |; б — то же распределение, но довер 


} 4 жит 
интервал ГГ) с меньшей доверительной вероятностью Р'<Р (ог>о) уже не содер 


генерального значения параметра |. 


ний признака). Указанные два типа стабильности оценок несколько 
различны, однако эти различия в контексте книги не ОЧЕНЬ сущест- 
венны и далее термины "робастность" и "устойчивость" будут упот- 
лентные. 

я точечной, ибо она имеет определенное число- 
вое значение для данной выборки, т.е. представляется в виде точки 
на числовой оси. В силу случайности выборки эта точка не совпадает 
и практически никогда не совпадает с |1. Поэтому желательно опре 

делить такой интервал значений, в пределах которого находится и. 
Как определить этот интервал? Как мы знаем, величина М подчиняет 

ся определенному вероятностному распределению. Трудность зак- 
лючается в том, что хотя сама функция распределения теоретически 
известна (это может быть нормальное распределение, 1-, х>-, Ғ- или 
другие распределения; см. $ 2), значение параметра и в этой Функции 
неизвестно. Позтому реально нельзя построить плотность распреде 

ления так, как это изображено на рис. 14. 

Однако в формуле для теоретического распределения можно 
заменить и — поставить вместо него конкретное выборочное знае 
ние оценки М. Соответствующее распределение будет подобно теоре 
тическому, но сдвинуто от И в сторону М (рис. 15, а). В пределах это- 
го распределения можно выделить такой интервал значений /,, /;, что 
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Рис. 16. Двусторонний и односто- 
ронний доверительные интервалы 

а — двусторонний интервал; б, в 
— односторонние (лево- и право- 
сторонний) интервалы. Доверитель- 
ная вероятность одна и та же —Р 


общая площадь под кривой за пределами этого интервала равна о (по 
0/2 с обеих сторон); площадь в пределах интервала Р = | - с. 

Отрезок ГГ, называется доверительным интервалом для оценивае- 
мого параметра и с доверительной вероятностьюР = 1 – а. Часто го- 
ворят также, что ПГ, — это 100Р%-ный доверительный интервал. Нап- 
ример, 97%-ный доверительный интервал отвечает значениюР = 0,97. 

Смысл доверительного интервала в том, что вероятностью Р-1-о 
он "накрывает" неизвестное нам генеральное значение |1; с вероят- 
ностью о параметр и оказывается вне доверительного интервала. Чем 
больше о, тем уже доверительный интервал (т.е. точнее оценка пара- 
метра џ, но тем вероятнее, что он не "накроет" џ; рис. 15, 6. Обычно о 
берут равным 0,05; 0,01; 0,001. Числа Г! и Г, называют доверительными 
границами. 

Вообще говоря, не обязательно рассматривать двусторонние дове- 
рительные интервалы, как это изображено на рис. 15. Можно обра- 
титься и к односторонним (рис. 16).. Однако при одной и той же 
доверительной вероятности Р -1-о границы одностороннего и 
двустороннего интервалов не совпадают. Более того, можно строить 
доверительные интервалы промежуточного типа, когда "отрезаются" 
оба хвоста распределения (т.е. интервалы двусторонние), но с одной 
стороны — больше, ас другой -- меньше. Однако симметричный ин- 
тервал, отрезающий от хвостов по 0/2, обладает оптимальными 
свойствами. Поэтому когда говорят о двустороннем доверительном 
интервале, имеют в виду именно симметричный. 

Специальные методы оценивания. Во многих случаях полу- 
чаемые оценки параметров обладают не всеми желательными свойст- 
вами. Они могут быть несостоятельными; а если они состоятельные, 
то могут иметь значительное смещение при небольших объемах вы- 
борки; может вообще отсутствовать формула для вычисления ошибки 
ввиду сложности ее аналитического выражения. В качестве выхода из 
таких ситуаций в математической статистике разработан ряд прие- 
мов. Некоторые из них мы и рассмотрим в этом пункте. 
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Рис. 17. Симметризующее преобразование признака 
Распределение исходного признака х имеет правостороннюю асимметрию. Распре- 
деление преобразованного признака у = (х) симметрично 


1. Один из приемов статистики — преобразование параметров и, 
стало быть, их оценок. Такое преобразование всегда желательно, если 
мы знаем, что теоретическое распределение оценок крайне асиммет- 
рично. Например, если распределение оценок х имеет правосторон- 


нюю асимметрию, то преобразования типа у = үх или у = Іп х(которыес 
увеличением х растут медленнее линейной функции) симметризуют 
распределение преобразованных выборочных оценок у (рис. 17). При 
левосторонней асимметрии следует выбирать функции, растущие 
быстрее линейной. В более сложных случаях функция 
преобразования может иметь разный тип на разных участках 
изменения параметра. 

Укажем способ оценки характера распределения выборочных 
оценок после преобразования. Рассмотрим теорию вопроса. Будем 
характеризовать распределение оценок первыми четырьмя момен - 
тами, т.е. математическим ожиданием, дисперсией, асимметрией и 
эксцессом. Обозначим их до преобразования через р, У, А, Е соот- 
ветственно: 


и- в р У- 8-р), 


А= тая в (х-н), Е в (ки), | 


гдех —оценкапараметра; & —знак математического ожидания. 
Аналогично т, 9, а, е — эти же характеристики после преобразования. 
Функцию преобразования обозначим {: у = Дх). Мы считаем эту 
функцию монотонной, т.е. либо /(х) > 0, либо ҒО) < 0. Как связаны друг 
с другом указанные четыре характеристики распределения оценки до 
и после преобразования? 

Из курса математического анализа известно, что в окрестности 
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точки р функцию можно представить в виде ряда Тейлора: 


у= а) + (6 в) +5 А) уи и). 


Такое представление законно, ибо распределение выборочной 
оценки в основном сосредоточено в окрестности точки и (если, ко- 


нечно, оценка несмещенная, по крайней мере состоятельная). Отсюда 
следует, что 


О 


те т= (и) + ву. 


Остальными членами ввиду их малости пренебрегаем. 
Таким образом, математическое ожидание т после преобразования 


определяется не только значением |, но и дисперсией У. Учет члена 


1 , 
аР (ШУ ликвидирует смещение, которое возникает, если принять т = 


=) и взять в качестве выборочной оценки величину КМ), где М — 


оценка параметра до преобразования. Правда, обычно этот член 
невелик, особенно при больших объемах выборок (действительно, У — 


это величина порядка 1/М). Но при малых М и больших /" 
необходим. хи) учет его 


Рассмотрим теперь дисперсию 
о- 8 (0- т)? = г (зға -и) + 27) + 


1 о з 
+=/"(х-и) Р-р пены 


М 
остальными членами также пренебрегаем. Отсюда получаем 
ғ? 

И = р" (У + Ға) ”(ш)Ау3?. 

Можно упростить это выражение, если пренебречь вторым членом 
который гораздо меньше первого: | 

0 = 2 (ШУ. 

Полученная формула очень важна в теории оценок. В частности 
часто бывает полезным стабилизировать дисперсию, т.е. найти такое 
преобразование, чтобы дисперсия оценки не зависела от значения 
оцениваемого параметра. Математически это означает, что если 


диспорсин У зависит отр: У = И), то надо найти такую функцию Хи), 
чтобы Ју = сопз!. Требуемое равенство можно переписать в виде ѓ5 = 


сопаг, где 5 = Му — стандартная ошибка. Отсюда получаем простейшее 
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дифференциальное уравнение }’= с/5, где с — 
константа. Решение его: 


Үс е 


Из полученной формулы следуют очень многие известные преоб- 
разования. Рассмотрим два примера. Первый — оценка частоты 
фенотипа. | 


Известно, что дисперсия оценки частоты фенотипа У, = Р(1 – РМ 


(см. $2 этой главы). Стандартная ошибка 5, = УРА - РУМ. Очевидно, что 
она .зависит от оцениваемой частоты. р. Найдем преобразование, 


произвольная 


делающее дисперсию независимой от р: 


ах 
нес -р) 


Взяв с = 1/ АМ, получим 


= др 
| т -р) 


Обратившись к методам интегрального исчисления, убеждаемся в 
том, что сделав замену переменных 2- Үр получим 


[52 7: 
р(.-р) 1-22 
что равно 2агсѕіп 2. Вот таким путем мы и получили знаменитое ф- 


преобразование, стабилизирующее дисперсию оценки частот, откры- 
тое Р.А. Фишером и обозначенное им как $: 


Ф = 2агсѕіп Үр. 

Его дисперсия (в силу данной выше формулы) 
ТЕ! р(1-р) 1 

Р-р М М 


Как можно убедиться, величина ф" велика при р, близких к 0 или 1. 
Следовательно, при очень низких или, напротив, высоких частотах 
это преобразование ведет к смещению. Для его устранения 
предложены поправки к ф-преобразованию (см. гл. 2, $ 1). 

Рассмотрим другой пример: с коэффициентом линейной корреля- 
ции г. Известно, что в случае совместного нормального распреде- 
ления двух признаков стандартная ошибка коэффициента корреляции 
5, М (1 - г2)/(М – 2). Пусть требуется подобрать такое преобразование, 
чтобы дисперсия оценки зависела только от объема выборки М. Имеем 


дг 
ІРГЕ ра 
1" 
38 


Взяв с = 


ЕЕ получим 
УМ№-2 


5+ -м (1-9). 


Таким образом, мы приходим к не менее известному /-преобра- 
зованию (также предложенному Р.А. Фишером): 


Ба 
пту. 


1 
Дисперсия 2, если принять данную выше формулу: у = 2?У = №: Но 


она несколько приближенная. Более точная (как показывает сложный 
математический анализ) следующая: 


5, МИ - 3). 


Однако при №>20 отличие между точной и приближенной форму- 
лами незначительно, тем более что меньшие численности для оценки 
коэффициентов корреляции практически неинформативны. 

Отметим, что подобный подход к отысканию надлежащих преобра- 
зований возможен не только по отношению к оценкам параметров, но 
даже и для исходных признаков. Например, хорошо известно, что 
многие размерно-весовые признаки проявляют так называемый эф- 
фект шкалы: дисперсия признака в группах особей растет вместе с 
увеличением среднего значения признака от группы к группе. Это 
создает препятствия при использовании ряда статистических мето- 
дов, например регрессионного или дисперсионного анализа, где пос- 
тоянство дисперсии признака одно из необходимых условий. Возни- 
кает вопрос, можно ли найти такое преобразование у = Дх) признака х, 
чтобы стабилизировать дисперсию? Принцип нахождения его анало- 
гичен данному выше для преобразования оценок: 

г = с[- 

о(х)” 


где б(х) — стандартное отклонение признака в группе особей, сред- 
нее значение признака у которых х. Например, нередко отмечается 
линейность эффекта шкалы, т.е. линейная зависимость С от х. Это 
соответствует случаю постоянства коэффициента вариации С, = с/х. 


ах 
Тогда С -С,х. Взяв с-С,, получим /-|---іпх. 
х 


Это обосновывает нередко предлагаемое логарифмическое преоб- 
разование исходных данных по количественным признакам. 

Приведенные примеры демонстрируют ценность формулы для дис- 
персии преобразованной оценки. Важно при этом знать, каким стано- 
вится коэффициент асимметрии после преобразования, стабилизи- 
рующего дисперсию, тем более что для ряда методов (например, 
"складного ножа" — см. ниже) важно уменьшить асимметрию теоре- 
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тического распределения выборочных оценок. Не приводя выкладок, 
аналогичных данным, укажем формулу для асимметрии после преоб- 
разования: 


У ер фа А?) 


— 


2 и 


Отсюда следует, что преобразование, устраняющее асимметрию (а = 
0), иное, чем преобразование, стабилизирующее дисперсию. К счастью, 
оба эти преобразования хотя и не совпадают, но для подавляющего 
большинства случаев однонаправлены. Поэтому часто преобразова- 
ние, стабилизирующее дисперсию, одновременно является симметри- 
зующим, т.е. значительно уменьшает асимметрию. Более того, оно 
может в целом улучшать распределение, приближая его к нормаль- 
ному. 

2. Нередки случаи, когда требуемый параметр оценивают исходя из 
оценок других (двух или большего числа) промежуточных парамет- 
ров. Например, частоту аллеля А системы групп крови АВО у челове- 
ка можно определить как 


Ра = УРА +Р,- УР,, 


где РА и Ра — частоты индивидов, имеющих группы крови А и 0 соот- 
ветственно (см. гл. 2, $ 4). Дисперсии оценок частот фенотипов Рди Ру 
определить можно — это биномиальные дисперсии. А как определить 
дисперсию частоты аллеля рд, являющегося функцией от Рди Ра? Для 
таких ситуаций можно рекомендовать тот же подход с разложением 
функции в ряд Тейлора, что и ви, 1. 

Итак, пусть оцениваемый параметр | является функцией 5 проме- 
жуточных параметров |4, Иә»... Ик: И = Дъ... ШӘ. Их оценки обозначим 
М;, М,,..., М. Пусть известны дисперсии этих оценок (И, И,,..., У), а 
также их ковариации (С) это ковариация М,иМр. Оценку 
параметра р мы можем определить по формуле 


М=АМ,,..., М). 


Каково ее смещение и, главное, какова дисперсия? 
Разложим функцию /в ряд Тейлора, ограничиваясь членами вто- 


рого порядка: 


4 


Кн Қы, %% 
пе / 5 Ва (к №) + УХ дх;дх (= =), -ш), 


где функция Хх]... Ху) и ее частные производные и первого и вто- 
рого порядка, строго говоря, берутся прих, = Ш...., х, = ц. Но так как и; 
неизвестны, то вместо них следует подставить их оценки М;. Тогда 


1 к 97/ а?у 
& у= +-У Лу С. 
о л+ 22 дх? Ы 25 дх,дх; ” 
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Следовательно, оценка 
М-/(М,, М,,..., МӘ 


является смещенной, но смещение значимо лишь при малых числен- 
ностях и больших величинах вторых производных. 
Перейдем теперь к определению дисперсии: 


2 


ігі дх; 
в ӘР ӘР в [ду ү а ә 
6 Аж - ШДХ ти | е гр Таға ае 
к за дх; Ох, (< Шы ш) ра дх; ы а д, ” 


Полученное выражение для Ум очень важно. Благодаря ему можно 
получить формулу для статистической ошибки М: 


зм = МУи. 


3. В прикладной математической статистике, к сожалению, нередки 
такие ситуации, когда даже мы и можем судить о форме теоретичес- 
кого распределения выборочных оценок (например, о знаке коэффи- 
циента асимметрии А), но выражения для него не имеем. Следова- 
тельно, мы не можем предложить формулу для ошибки, а если и мо- 
жем, то грубую. Кроме того, при выводе соответствующих формул де- 
лают некие предположения, которые могут не выполняться. Положе- 
ние, казалось бы, безвыходное. Однако выход нашелся в форме двух 
подходов к анализу подобных ситуаций. Один из них так называемый 
метод "складного ножа" который позволяет уменьшить смещение 
оценки (если она состоятельна), а главное, получить дисперсию 
(ошибку) оценки параметра даже в тех случаях, когда вид теоретичес- 
кого распределения выборочной оценки неизвестен. Мы полагаем, 
что имеет смысл дать общее описание этого метода. 

Пусть имеется случайная выборка объема М: х,,..хк, где каждое из 
измерений х (например, значений признаков особей) распределено по 
одному и тому же закону Гүр, х), ар — это неизвестный параметр, ко- 
торый надо оценить по данной выборке. Например, если Е -- нормаль- 
ное распределение, то ц — это или среднее, или дисперсия; если Е — 
биномиальное распределение, описывающее, скажем, аллельный 
состав, то Џ — это частота аллеля, и т.д. Вообще говоря, считается, 
что распределение Ғ мы не знаем и имеется лишь состоятельная 
оценка / параметра џ как функция выборки: 


10 = 501, Х2,..., ХМ). 
Метод "складного ножа" заключается в следующих процедурах. 


1. Из № наблюдений х;, х,,...хь удаляется хі, после чего находится 
оценка г | по оставшимся №1 наблюдениям: 


11 = 5(х2, Хъ..., хм). 
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Затем находится оценка і;по М-1 наблюдениям, но без хо: 
15 91, Хз, Ха,..., ХМ). 


Эта процедура повторяется М раз; каждый раз удаляется только 
одно наблюдение. Последний М-й раз удаляется М-е наблюдение хуи 


вычисляется оценка 
Ем = 901, Хо,..., Хм). 
2. Вычисляются псевдовеличины Іі; 
ц-М-(М-)1, 
„= Мм-(М-1)г г», 


іу = № -(№ 1): у. 

3. Вычисляется новая средняя оценка 
1 

= (01, + >, +... + ім) 


и ее статистическая ошибка 


Величина Ги есть оценка параметра р по методу "складного ножа". 

Как видно из описания, метод довольно прост и легко реализуется 
на компьютере (иногда аналитически). Следует отметить, что не всег- 
да метод позволяет сразу улучшить оценку. Может статься, что пот- 
ребуется к полученной оценке / еще раз применить процедуру выбра- 
сывания, это будут оценки по методу "складного ножа", но более вы- 
соких порядков — второго, третьего и т.д. Однако они сложны и 
здесь не рассматриваются. Отметим также, что до применения метода 
"складного ножа" крайне желательна симметризация теоретического 
распределения посредством преобразования оценки, как это описы- 
валось в п. 1 этого раздела. ) 

При наличии мошных компьютеров статистическую оценку пара- 
метров еще лучше оценивать с помощью так называемого будст- 
реп-метода, являющегося развитием идеи метода "складного ножа". 
Процедура его применения следующая. р 

1. Вначале следует организовать "псевдогенеральное" распределе- 
ние признака, приписав каждому из М наблюдений хи, хә,..., Ху ве- 
роятность 1/М. 

2. На основе компьютерного датчика случайных чисел надо орга- 
низовать первую "псевдовыборку" объема М из псевдогенерального 
распределения и получить по ней оценку г, параметра |. Затем орга- 
низовать вторую случайную псевдовыборку и получить оценку 12. 
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Затем так же по очередным случайным псевдовыборкам из псевдоге- 
нерального распределения получить оценки 4, 4, /5,...и так повто- 
рить К раз (обычно берут &-100—200). 


3. Будстреп-оценка Г параметра И имеет вид 
| 
і- Еб. + 02, +... +). 


а ее статистическая ошибка 


| 1 е 
5- 112 (0) 


Это, видимо, лучший на сегодня подход к получению относительно 
малосмещенных оценок параметров и их статистических ошибок в 
общем случае. Как и в методе "складного ножа", здесь также жела- 
тельна предварительная симметризация теоретического распределе- 
ния выборочных оценок параметра. 

Статистические критерии и их свойства. Оценивание пара- 
метров — лишь один из этапов статистического анализа данных. По- 
мимо этого, в популяционных исследованиях возникают вопросы с 
альтернативными возможностями в ответе: выборки сходны (или нес- 
ходны); параметры сравниваемых группировок одинаковы (или раз- 
личны); изменчивость признака в эксперименте больше (или меньше), 
чем в контроле; отсутствует (или есть) ассоциация признаков и т.д. 
Сами эти вопросы и ответы на них формулируются на основе следую- 
щих важнейших понятий математической статистики: статистической 
гипотезы, статистического критерия, уровня его значимости и мощ- 
ности. 

Фундаментальной концепцией теории статистических решений яв- 
ляется различение нулевой и альтернативной гипотез. Нулевая гипо- 
теза (или, как часто говорят, нуль-гипотеза) — это некое априорное 
предположение о генеральных распределениях признаков или о па- 
раметрах этих распределений. Она обозначается Н,. Альтернативная 
гипотеза (обозначаем ее Нд) — это логическое отрицание нулевой ги- 
потезы. Если Но: р = цо (т.е. условие нуль-гипотезы — это предполо- 
жение о том, что параметр генеральной совокупности џ равен 
некоторому числу ро) то НА: џ # цо. Могут быть и другие варианты 
альтернативных гипотез. Например: НА: к< ро или Ну: џ< що 

Различение гипотез Нуи Н осуществляется статистическим 
критерием. 

Статистический критерий (тест) Т — это функция выборочных 
значений и условий нуль-гипотезы Но, согласно которой по 
условиям альтернативной гипотезы и данным о конкретных выборках 
принимается или отвергается нулевая гипотеза Ну. 

Пусть, например, рассматривается нуль-гипотеза Но: в = щ. Тогда 
То = ТМ, М,..., но), т.е. функция Т определяется выборочной оценкой 
М неизвестного нам параметра |, объемом выборки №, возможно 
другими выборочными параметрами, а также условием нуль-гипоте- 
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[7 
% 
Фиима 


Рис. 18. Уровень значимости двусторон- 
него критерия проверки нуль-гипотезы 
То — величина критерия; а — точный 
уровень значимости а определяется как 
% площадь вне симметричного доверитель- 
2 её “ 2 ного интервала, один из концов которого 
совпадает с То; 6-- если критерий То 
5, меньше выбранного “порогового” уровня 
222225 х', то Но принимается на уровне 
0 тт значимости 0’; в — если критерий То 
больше выбранного “порога” х", то Но от- 
вергается на уровне значимости о" 
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зы — величиной цу. Функция Т выбирается таким образом, чтобы зна- 

чение ее было равно 0 при М = руи увеличивалось по абсолютной 
величине, когда М все больше отличается от цо. Гипотеза Н, прини- 

мается, если значение Т, относительно мало, и отвергается, если оно 
велико. Рассмотрим вероятностные основы процедуры принятия 
решений. 

Итак, пусть задана нуль-гипотеза относительно неизвестного па- 
раметра ц, например Но: р = що, где цо — известное число. Пусть ги- 
потеза Но справедлива. Тогда, принимая |ш за генеральное значение 
параметра, мы можем описать теоретическое распределение Ту как 
функции от М для всевозможных случайных выборок: Ту = ЦМ,...). 
Это распределение концентрируется вокруг 0 как предполагаемого 
по гипотезе Но генерального значения разности р, — и = 0, подобно 
тому как распределение оценок М концентрируется вокруг ц. Отме- 
тим, что в целях успешного практического применения функцию Т 
обычно подбирают такой, чтобы ее значения, отвечающие всевоз- 
можным случайным выборкам (т.е. всевозможным значениям оценки 
М), имели стандартное табулированное распределение. 

Для указанного распределения можно построить доверительный 
интервал, соответствующий выбранному значению вероятности Р. В 
математической статистике руководствуются следующими правилами 


проверки гипотез. 
Нуль-гипотеза Н, не отвергается, если вычисленное значение Ту 


для данных выборок попадает в доверительный интервал. Она отвер- 


гается, если Т; находится вне доверительного интервала. 

На рис. 18 видно, что гипотеза Н, принимается или отвергается в 
зависимости от ширины доверительного интервала, т.е. от довери- 
тельной вероятности. Можно выбрать доверительную вероятность 
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А. 7 


Рис. 19. Двусторонний (а) и односторонний (6) критерии 


Р-1-о так, чтобы граница доверительного интервала совпала с оцен- 
кой Ту (рис. 18, а). 

Величина ©, при которой граница доверительного интервала сов- 
падает с То, называется уровнем значимости. 

Как видно из рис. 18, уровень значимости — это вероятность оши- 
биться, если мы решимся отвергнуть нуль-гипотезу Но, когда на 
самом деле она верна (величину © часто называют ошибкой І рода). 
Таким образом, определив @, мы должны принять одну из двух аль- 
тернатив: или считать верной На, или отвергнуть ее (и принять НА). 
Чем меньше о, тем менее мы должны считать Ну. справедливой. И нао- 
борот, чем больше а, тем более мы склоняемся к принятию Но 

Часто точнъй уровень значимости определить трудно, поскольку в 
таблицах обычно приводят "пороговые", критические величины кри- 
терия (для традиционно установившихся "пороговых" уровней значи- 
мости: 0,05; 0,025; 0,01 и др.) По величине критерия судят о том, пре- 
вышает или нет истинное 0, то или иное пороговое значение. На рис. 
18 подобные пороговые значения обозначены оп! и а": на рис. 18, 6 
о>о”, на рис. 18, в а<а". Все же иногда необходимо знать точный 
уровень значимости. В $ 2 этой главы указаны соответствующие мето- 
ды для наиболее важных выборочных распределений. 

Статистические критерии принято делить на двусторонние и од- 
носторонние соответственно тому, какой выбран доверительный ин- 
тервал — двусторонний или односторонний (рис. 19). Двусторонний и 
односторонний критерии различаются формулировками гипотез. Для 
двустороннего теста 


Но: = цо, Нд: р * Но. 
Для одностороннего теста 
Но: и = що Нд: и> ро 


(или Но; изщо На: И<Ц)). 

Односторонние тесты применяют в тех случаях, когда есть уверен- 
ность в правильности формулировки альтернативной гипотезы. Нап- 
ример, если Нд: „>, то исследователь должен быть уверен, что не- 
возможно и<щ. 

Как видно на рис. 19, для данного значения щ уровень значимости 
одностороннего теста в 2 раза меньше уровня значимости двусторон- 
него теста. На первый взгляд кажется, что односторонний тест луч- 
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Рис. 20. Различие между двусторонним и односторонним тестами 
а — двусторонний тест принимает гипотезу Но на уровне значимости а при 


данном значении критерия Ти; б — односторонний тест отвергает нуль-гипотезу Но 
на том же уровне значимости о. 


ше, ибо он чувствительней. Действительно, возможны ситуации 
(рис. 20), когда для одного и того же порога значимости 0, односто- 
ронний критерий отвергает нулевую гипотезу, а двусторонний при- 
нимает ее. Однако это сомнительное и "опасное" преимущество, пос- 
кольку альтернативные гипотезы у них разные. Если мы ошиблись в 
предпосылках и альтернативная гипотеза неверно сформулирована 
(при НА: >; возможно И<И(), то мы будем в 2 раза чаще ошибаться,: 
отвергая верную нуль-гипотезу. Поэтому односторонний критерий 
следует использовать в тех случаях, когда мы априори знаем, что 
альтернативная гипотеза формулируется в виде определенного не- 
равенства. Например, мы можем предполагать, что мутаген может по- 
высить изменчивость особей, но никогда не снизит ее; позтому срав- 
нение эксперимента с контролем здесь, естественно, требует одно- 
стороннего критерия. Напротив, сравнение выборок из разных груп- 
пировок, о которых мы заранее ничего не можем сказать, следует 
проводить на основе только двустороннего критерия. Если же в этом 
случае вместо двустороннего мы будем регулярно использовать 
односторонний тест, то в 2 раза чаще начнем ошибаться, утверждая, 


что есть различия между группировками, когда на самом деле их нет. 


Следует отметить, что при рассмотрении двусторонних критериев 
часто используют такие функции, для которых значения критерия не 
отрицательны. Например, вместо Т (если оно принимает и положи- 
тельные и отрицательные значения) можно взять Т, = 72. Здесь уро- 


вень значимости определяется как площадь, отрезаемая только от 
правого "хвоста" распределения Т,, ибо он суммируется из двух 
хвостов распределения Т (рис. 21). При этом критерий Т остается 
двусторонним. 

Рассмотрим теперь такое важное свойство статистических крите- 
риев, как мощность. Пусть нуль-гипотеза Но: и-Цо оказывается невер- 
ной. Это значит, что фактическое значение ц отличается от у и равно 
некоторому числу ид (пусть для определенности ид>щ). Тогда наря- 
ду с функцией критерия Ту = Т(М, №, ц) можно задать функцию ТА = 
Т(М, М, рд), значения которой для всевозможных случайных выборок 
распределены вокруг величины А — показателя различия ци [о 
(например, если ц — среднее, то А = цл-Цо; если И дисперсия, то А = 
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Жие 


0 рт 4 
Рис. 22. Мощность критерия (см. текст) 


Показаны распределения критерия при справедливости нуль-гипотезы Но: Ит № и 
при справедливости альтернативной гипотезы НА: И=НА 


Най, и т.д.; рис. 22). Пусть Т» — пороговое значение критерия То, от- 
вечающее выбранному уровню значимости а. На рис. 22 видно, что Т, 
отрезает от альтернативного распределения Т, (отвечающего гипоте- 
зе Нл) "хвост" площадью В. Иными словами, В — это вероятность оши- 
биться отвергая гипотезу Н, когда она верна (В — ошибка П рода). 

Величина 1-В называется мощностью критерия Т. Часто мощность 
выражается в процентах: 100(1-В), например мощность 80% означает, 
что В=0,2. Мощность — это, по сути дела, разрешающая способность 
критерия, его возможность различать альтернативы. Поэтому при 
выборе того или иного критерия надо руководствоваться сведения- 
ми о его мощности. Правда, тут следует отметить, что мощность — не 
единственное качество критерия. Робастность критерия — устойчи- 
вость к "выбросам" и изменениям вида распределения признаков — 
еще более важная его характеристика. Но если два критерия робаст- 
ны, то следует выбрать более мощный. 

Практика показывает, что приемлемая мощность критерия — 
80--90%. Но чтобы достичь ее, следует знать, от чего она зависит. Ука- 
жем это. Во-первых, мощность определяется различием А между про- 
веряемой нуль-гипотезой и фактической ситуацией: чем больше А, 
тем выше мощность (рис. 23, а, б). Во-вторых, на мощность влияет 
объем выборки: чем меньше выборка, тем меньше мощность, поскольку 
с уменьшением № увеличивается дисперсия теоретического распре- 
деления (рис. 23, в). В-третьих, мощность критерия напрямую связана 
с выбранным пороговым уровнем значимости: чем больше ©, тем 
больше мощность (рис. 23, Г). Таким образом, уменьшая пороговое 
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Рис. 23. Распределение статистик нулевой и альтернативной гипотез (а) 
Изменение мощности критерия: при увеличении различий между Ну и НА (6); при 
уменьшении объема выборки (в); при уменьшении а, (г) 


значение 7,, мы увеличиваем мощность критерия, но повышаем риск 
признать верную гипотезу Н, неверной. Если же мы сильно увеличим 
Т,,то мы уменьшим ошибку І рода, но при этом заметно понизим мощ- 
ность критерия, т.е. будем часто принимать как верную гипотезу Н, 
даже если верной оказывается альтернативная гипотеза Н, (ошибка П 
рода). Отметим, в-четвертых, что мощности двустороннего и однос- 
тороннего критериев различны: последний более мощный при одном 
и том же пороге значимости (рис. 24). 

Из рассмотренных свойств мощности вытекают простые правила, 
которыми следует руководствоваться при проверке гипотез: 
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Рис. 24. Мощность двустороннего критерия (а) меньше мощности одностороннего (6) 


при небольших объемах выборок надо брать умеренные пороговые 
уровни значимости, так как при малых 01 мощность будет незначи- 
тельной; | 

пользоваться односторонними тестами, 6сли это позволяет поста- 
новка задачи (но следует помнить, как отмечалось, что при отсутст- 
вии априорной уверенности в односторонности Н, лучше обращаться 
к двусторонним критериям). 

И еще одно важное требование: следует по возможности исполь- 
зовать робастные критерии, которые, как и при оценке параметров, 
обеспечивают устойчивость к предположениям, в частности сохране- 
ние мощности при изменении вида распределений признаков и нали- 
чии резко отклоняющихся наблюдений. 

В заключение отметим, что (как следует из изложения) статисти- 
ческие методы можно условно разделить на две группы. Первая груп- 
па — это методы оценивания параметров. К ним относится определе- 
ние заданных числовых характеристик выборок и их доверительных 
интервалов (или стандартных ошибок), "накрывающих" генеральное 
значение оцениваемых параметров: средних, дисперсий, коэффициен- 
тов корреляции и регрессии, частот генов, процент больных и т.д. и 
т.п. Вторая группа — это методы сравнения распределений или оце- 
ниваемых параметров, оценка статистической значимости различий. 
Для первой группы методов важны свойства состоятельности, 
несмешенности, эффективности оценок; для второй — выбор нуле- 
вой и альтернативной гипотез, критерия, мощности и уровня зна- 
чимости. 

Но следует указать еше на одну группу методов, которые многие 
не относят к компетенции математической статистики. Мы имеем в 
виду методы классификации: кластерного анализа, распознания обра- 
зов, ординации и др. Они важны для популяционной биометрии. Мно- 
гие из них основаны на многомерных подходах и понятиях теории 
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матриц, играющих немаловажную роль и в других разделах биомет- 
рии, например анализе комплексов признаков. Поскольку эти понятия 
практически не даются в обычных биометрических пособиях, мы при- 
ведем их. 


Теория матриц 


Во многих практических приложениях возникают упорядоченные 
наборы чисел. Например, расстояния между любыми парами из  вы- 
борок можно организовать в виде таблицы (матрицы) расстояний. В 
виде матрицы можно представить и всевозможные коэффициенты 
парной корреляции между всеми признаками. Комплекс признаков 
особи также представляет собой упорядоченный набор чисел, так 
называемый вектор. Чтобы извлечь из подобного рода таблиц ин- 
формацию, необходимы специальные математические приемы. Они 
требуют обращения к особому, очень важному разделу математики — 
теории матриц. Современная популяционная биология уже не может 
миновать ее идей и представлений. Вот почему мы даем основные 
понятия матричной алгебры. 

В элементарной алгебре часто встречается выражение ах, где х — 
переменная (например, значение какого-либо признака, меняющегося 
от особи к особи), а а — некий коэффициент. Если изучается не один, а 
несколько признаков х;, Хо,..., х,, то нередко приходится вычислять их 
линейные комбинации, являющиеся обобщением выражения ах на 
случай нескольких переменных: 


ах + Фо +...+ ар Хр, 
Вуху + Бодо +...+ ух ИТ.Д., 


где 41, 42... ар; В, 6›,..., Б, — некие коэффициенты, "веса" признаков. 

Запись в виде подобных сумм не всегда удобна, а главное, гро- 
моздкость ее становится препятствием при анализе математически 
формулируемых закономерностей. Развитие матемитики привело к 
созданию матричной алгебры, в которой указанные "длинные" суммы 
записываются кратко — Ах, где А их — эти уже не числа, а матрица и 
вектор. Теория матриц упростила алгебраические выражения и опе- 
рации над ними. И хотя численные расчеты для них трудоемки, к нас- 
тоящему времени с развитием компютерной техники все многомер- 
ные подходы стали бурно развиваться и использоваться во всех об- 
ластях знания: астрономии, геологии, экономике и др. Проникают они 
и в биологические дисциплины, в частности начинают широко ис- 
пользоваться в популяционных исследованиях. Дадим краткую свод- 
ку используемых понятий. Вначале дадим общие математические по- 
нятия, а затем поясняющий пример. При первом чтении весь этот раз- 
дел можно опустить. 

Вектором называется упорядоченный набор чисел х), х,,..., Хр, В 
совокупности описывающий некоторые параметры объекта. Это могут 
быть, например, р признаков, характеризующих особь. Вектор часто 
обозначают тем же символом, что и исходный параметр, но без индек- 
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са, нередко при этом набирают его полужирным шрифтом: 
х; 


Хх; 


Хр 


Числа хи, Хо, ..., х, называются компонентами, или координатами, 
вектора х,ар .- его размерностью. Если вектор двумерный (р = 2): 


х 
х= ( іу, то он геометрически интерпретируется как точка плоскости. 
Х2 


Хх 


При р = 3 вектор х=| х2 можно представить себе как точку 


23 
пространства При р>3 графическое изображение вектора 
невозможно, но по аналогии с двух- и трехмерным пространством 
говорят о р-мерном пространстве, точкой которого является р- 
мерный вектор х. 

Вектор х называют еще и вектор-столбцом по той причине, что 
наряду с ним можно определить вектор-строку (х1, х2,..., хр). Это 
различие существенно в операциях умножения, производимого над 
векторами. Условимся для краткости иногда называть х просто 
вектором, оставив более длинный термин "вектор-строка" за Оп. Хр). 

Если х — вектор-столбец, то будем обозначать хГ вектор-строку. 
Смысл этого обозначения объясним позже, после введения понятия 
матрицы и операции транспонирования. Чтобы оперировать с 
векторами, следует указать правила действий над ними и ВЕРСЛТИ 
соответствующие понятия. Пусть хиу- векторы одинаковой 
размерности. 

Сложение векторов: 2 = х + у. При этом все 2; = х; + у;, т.е. скла- 
дываются соответствующие координаты векторов. 

Пример: 


СЕБЕ 


Вычитание векторов: 2 = х – у. При этом все 2; = х; – ур, т.е. вычи- 
таются соответствующие компоненты векторов. 
Пример: 


ЕСЕ 


Перечисленные операции производятся над векторами только оди- 


наковой размерности. ЕР 


Определим нуль-вектор, как вектор, у которого все координаты 
равны нулю: 


О 


0 


Условимся писать х = у, если равны все соответствующие коорди - 
наты векторов х иу. 


Пусть с — число; определим умножение числа на вектор следую- 
щим образом: 
сх 


сх2 


СХ р 


т.е. на число с умножаются все координаты вектора х. 
Пример: 


3 -6 
= -2, ш 5 = = 
с х (3) 2х 2 } 


Замечание: деление на число с # 0 равносильно умножению на 


число 1/с, т.е. разделить вектор на число с — это значит разделить все 
координаты его на с. Все введенные понятия тождественно форму- 
лируются и для вектор-строк. 

Перейдем теперь к новым понятиям. 

Таблица вида 


ай .... а, 


ар ФУ лс арп 
ср строками и п столбцами называется матрицей. Числа а; ‚ состав- 
ляющие А, называются ее элементами. Если надо подчеркнуть, что 
матрица составлена из элементов а;, то используется следующая 
символика: 

А = (ар і= 1,...,р;ј = 1,.., п. 
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Матрицу с р строками и л столбцами называют рхп-матрицей, или 
матрицей размерности р хп. Если п = р, то матрица называется 
квадратной размерности р. Для квадратной матрицы элементы ај, а22, 

„арр называются диагональными, а “линия а + арр — главной диа- 
гональю. 

Квадратная матрица, все элементы которой равны 0, называется 
нулевой и обозначается как 0. Квадратная матрица, у которой все 
элементы, стоящие вне главной диагонали, равны 0, называется 
диагональной. Иногда диагональную матрицу 


а0...0 
05...0 
00... с | 


обозначают как Фар (а,№р, ..., с). Диагональная матрица 


10... 0 

01...09 
1 = 

00...11 


называется единичной матрицей. 

С матрицей А размерности рхп можно связать транспонированную 
пхр-матрицу, если в ней поменять местами столбцы и строки. 
Матрица, транспонированная к А, обозначается АТ (иногда А", А*) и 


определяется формулой АТ = (ад), ј = 1, пр; 
следовательно: 
а... ар 
АТ- 
а, ... дрп 


Образно говоря, АТ получается из А вращением вокруг диагонали 
ат арљ 

Отметим простое, но важное свойство транспонирования: 

(АТУ = А, 


т.е. двойное транспонирование равносильно его отсутствию. 
Говорят, что квадратная матрица А симметрична, если АТ = А, т.е. 
если элемент а; равен элементу а; для любых |і, ). 
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Если п = 1, то 


следовательно, вектор -столбец является частным видом матриц с 
одним столбцом. Вектор-строка — это матрица с одной строкой, он 
транспонирован по отношению к вектор-столбцу. Матрица размер- 
ности 1х1 есть простое число. 

Чтобы эффективно оперировать с матрицами, следует, как для 
векторов, определить правила действий над ними. Пусть А и В — 
матрицы одинаковой размерости -- рхи. 

Сложение: С = А+В; все су = ау%Бу, т.е. складываются соответствую- 
шие элементы матриц А и В. 

Вычитание С - А-В; все сузау-Ә;, т.е. вычитание производится 
над соответствующими элементами матриц А и В. 

Умножение на число к; С = КА; все с; = Ка, т.е. умножаются на К 
все элементы матрицы А. 

Аналогично определяется деление на число. 

Перечисленные линейные операции производятся только над 
матрицами одинаковой размерности. Другая операция, а именно 
произведение матриц налагает на них другие условия. Пусть А--тр- 
матрица, В--рхл- матрица. Произведение матриц С = АВ задается 
формулой 


р 
Су ш Уау, П РЕЯ т; ј = 1,..., п 
К=1 


и является тхл- матрицей. 

Из этой формулы следует, что при перемножении число столбцов 
первой матрицы А должно совпадать с числом строк второй матрицы 
В. В частности, всегда можно перемножить квадратные матрицы оди- 
наковых размерностей. 

Далее, если хиу — два вектор-столбца. размерности р, то хТу 
есть не что иное, как іхі-матрица, т.е. просто число. Это число 
называется скалярным произведением векторовх иу, В частности, 
если обозначить а! = (а, ао, ..., ар), БТ = (61, Б), ..., 5»), то суммы, о 
которых шла речь в первом абзаце этого раздела, просто запишутся 
как аїх, Бїх: 


аїх = ах! + 400 +... + арх, БТх = Бух + Роло +... + Бх. 
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Если хТу = 0), то векторы хи у ортогональны. Скалярное про- 
изведение вектора х с самим собой называются скалярным квадратом: 


2 2 + 
ХТ = ху +... + хр. В силу теоремы Пифагора величина М хТх является 


длиной вектора х, т.е. расстоянием от точки х до начала координат 0. 
Длину вектора х часто обозначают (| 

Если а — вектор размерности р, а В — вектор размерности л, то ав! 
представляет собой матрицу размерности рхл: 


а, а, .. ф; аб, 


арт = 
ар, арб», ар, 

Произведение ав? при одинаковой размерности векторов, т.е. при 
п = р, представляет собой квадратную матрицу, в частности да?! — 
квадратная матрица размерности р. 

В дальнейшем основной упор делается на квадратные матрицы. 
Поэтому слово "квадратная" для простоты будем иногда опускать. 

Укажем некоторые свойства умножения матриц. Пусть А,ВиС- 
матрицы одинаковой размерности. Умножение матриц ассоциативно, 
т.е. А(В + С) =АВ+АС. В отличие от свойств чисел перемножение 
матриц не коммутативно, т.е., вообще говоря, АВ + ВА. 


Пример: 


4 оо в 0) 


Тогда 

4Б 01 Бра 00 
“(0-0 00) 

т.е. АВ «ВА, 


Некоммутативность произведения матриц вносит сушественные 
сложности во многие вопросы теории. Но для некоторых матриц 
может быть АВ - ВА,и тогда говорят, что матрицы А и В пере- 
становочны между собой, или коммутативны, в частности единичная 
матрица перестановочна с любой другой матрицей. Более того, для 
любой матрицы А имеет место равенство 

АІ =ІА = А, 

т.е. І выполняет роль единицы, откуда и происходит ее название. 
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Заметим, что можно ввести степень матрицы А соотношением 
А'=А-А.....А. 
—— 
г 

В силу общих свойств умножения матриц имеет смъсл произ- 
ведение квадратной рхр-матрицы А "справа" на вектор-столбец х раз- 
мерности р. Результатом произведения будет вектор-столбец у также 
размерности р: 

у + Ах. 

Его координаты, 


р 
у; = Уаух;. 
ізі 


Произведение квадратной матрицы "слева" на вектор-столбец 
неосуществимо, однако слева умножить вектор-строку на матрицу 
можно. Поэтому имеет смысл выражение хТА, являющееся вектор- 
строкой. 

Рассмотрим пример, поясняющий смысл введенных понятий. Пусть 
изучаются частоты генотипов АА, Аа, аа по аутосомному локусу и 
пусть особи исходной популяции скрещиваются с гетерозиготами Аа. 
В силу законов Менделя родители генотипа АА при скрещивании с Аа 
дадут в следующем поколении поровну генотипы ААи Аа. 
Аналогично родители Аа при скрещивании с Аа дадут АА, 2да и ад, а 


1 1 
родители аа — Аа и аа. Составим матрицу 


2 2 
1100 
2 4 
1241 
Газ |222 
11 
0 го 
4 2 
(символ Аа характеризует систему скрещивания — с особями 


генотипа Аа). В ней каждый столбец отвечает разным генотипам 
популяции и показывает долю производимых ими потомков в 
следующем поколении. 


Очевидно, что если частоты генотипов в исходном поколении 
ооо 
известны и равны х, х2, хз, то при панмиксии частота генотипа АА в 


первом поколении 


1 То То 
ЖаШ Хо. 


4 
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вы 


Аналогично частота генотипа Аа: 


11010 То 


ХЕ АХ Жажа Хз, 


2 


2 


агенотипа ай: 


1 
(4 (а 
|1 

Хо = хо 5 Хр |х |, 
1 
Е х3 


то уравнения, связывающие частоты генотипов в смежных поколе- 
ниях, можно записать в матричном виде: 


х= ГдаХо- 


2 . 
Тогда во втором поколении х› = Гдах! = Г да Хо. Если от поколения к 


поколению система скрещивания неизменна и выживаемость особей 
одна и та же, то в поколении номера г: 


1 
х; = Глаж- = Гда(ГдаХ!-2) = Гда--.ГАаХо = Г дахо. 


Таким образом, степень матрицы имеет вполне определенный 
биологический смысл. 
Пусть теперь система скрещивания иная: не с гетерозиготами, а с 


гомозиготами аа. Введем матрицу 


ооо) 
1 

Гао 0 
Дора 
2 


аналогично тому, как ввели матрицу Гала: 
Если особи исходной популяции скрещиваются с Аа, а их потомки 
с аа, то вовтором поколении 


ю< Гах = Гаа(Г дао) = (Г.да). 
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Легко подсчитать, что 


ТАЕ = 


= вм о © 
өре он о 


При обратном порядке скрецивания (вначале с гемозиготами аа,а 
затем с гетерозиготами Аа) вектор частот генотипов во втором поко- 
лении 


х = Гдах! = Гда (ГааХо) = (ГдаГаа)Хо 


Здесь 
110 
4 8 
111 
ГлаГаа = 5 2 2! 
131 
482 


Мы видим, что ГдаГаа # ГааГАа, Т.е. матрицы Гда и Гаа неком- 
мутативны. В этом примере некоммутативность имеет вполне реаль- 
ное биологическое объяснение: порядок систем скрещивания влияет 
на распределение частот генотипов в следующих поколениях. 

Важной характеристикой квадратной матрицы является ее опре- 
делитель (детерминант). 


Пусть 
< 
ау а2... а р 
@21 422 ... а2 
А= 
ар ар арр 
Назовем элементом определителя произведение вида 410 


а2а) >“Аро, Где все 0; различны и изменяются от 1 до р, т.е. все 


сомножители — это элементы матрицы А, стоящие в разных строках и 
разных столбцах. Образно говоря, если А — шахматная доска размера 
рр, то из всех р ладей, расположенных на полях (1,04), (2,0;),..., 
(р, р), ни одна не нападает на другую. 

Рассмотрим последовательность индексов а 1.-::002,....00....0р. Если о; 
и а; поменять местами, так что последовательность приобретает вид 
01,...,0,...,0;,....0., То будем говорить, что совершена транспозиция сим- 
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волов о; и оу. Назовем последовательность а1.... 0; четной, если число 
транспозиций, необходимых для получения последовательности 1, 
2,....р, четно. В противном случае она — нечетная. Например, дляр-3 
последовательность 1, 3, 2 — нечетная, а последовательность 2, 3, 1 — 
четная. Поскольку число различных перестановок из р элементов 
равно р!, то различных элементов определителя также будет р! 
Определителем матрицы А называется сумма всех различных эле- 

ментов да 2ао:--драр: причем злемент берется со знаком плюс, если 


последовательность (|, а;..../4, четная, и со знаком минус, если она 
нечетная. Символически определитель матрицы А обозначается либо 
де: А, либо |А|. В том случае, когда квадратная матрица А имеет раз- 
мерность 1, т.е. А = а, ее определитель равен этому числу. Для 2х2- 
ац 


2 
|- 411422 — 412421. Определитель матрицы раз- 


матрицы. ы 
а] 4% 


мерности 3 уже гораздо сложнее: 


а 42 аз 
де аә] аҙ; 923 |= #11402й33 + 412423431 + 413421432- 


аз @32 43 
-411423432-412421433 - 41342343]. 


Для больших размерностей вычисление определителя "вручную" 
затруднительно. 

Укажем некоторые свойства определителя: 

1) если одна из строк матрицы равна нулю, то и определитель равен 
нулю; 4 

2) при перестановке двух строк определитель меняет знак; 

3) определитель матрицы, содержащий хотя бы две одинаковые 
строки, равен нулю; 

4) если все элементы какой-либо строки матрицы множатся на одно 
и то же число с, то и определитель множится на с; 

определитель матрицы, содержащей две пропорциональные 
строки, равен нулю; 

6) если какая-либо строка матрицы является линейной комби- 
нацией остальных строк, то ее определитель равен нулю. 
Обозначим через М; определить матрицы размерности (р- 1) х (р- 1), 
которая получается вычеркиванием і-й строки и /-го столбца 
матрицы А. Число М; называется минором матрицы А. На основе 
миноров можно свести вычисления определителя рх р-матрицы к 
вычислению определителей матриц меньшей размерности, а именно 
справедливо следующее разложение определителя по і-й строке: 


р МЯУ 
йе = Уа;М,(—1) 9. 
Ј=1 
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Аналогично разложение определителя по /-му столбцу: 
Р 4... 
ег А = Ха М; (10). 
іш 


Возможность разложения облегчает подсчет определителя, осо- 
бенно если в строке (или столбце), по которой идет разложение, мно- 
го нулей. Пример: 


00 10 
де | | ; д = (разлагаем по первой строке, ибо в ней только 
0-2 43 
04 2 
один ненулевой элемент) = је 1 0 2 |= (разлагаем по первому 
0-2 3 


2 3 


Отметим, что наличие мощных компьютеров сейчас полностью сни- 
мает проблемы вычисления определителя матрицы и других ее ком- 


понентов. 
Отметим еще два свойства определителя: 


4 2 
столбцу) = -ащ | = (12+ 4) = – 16. 


де АТ = де А, де(АВ) = де А -де: В. 


Важным в Теории матриц является понятие обратной матрицы. 
Матрица А”! называется обратной к А, если ее произведение с А суть 
единичная матрица: 


АЗА-1 


Отметим некоторые свойства обратной матрицы: 


АА = АТА 51, (АВ) = ВАЛ, | 
1 р 

АПА = (АТ, децА т) = ——. 

(А) (А) (А 1) ты 


Понятие обратной применимо только к квадратным матрицам. Но 
не каждая квадратная матрица может иметь обратную. Матрицы, не 
имеющие обратной, называются вырожденными. Оказывается, что вы- 
рожденными являются только такие матрицы, определитель которых 
равен нулю. Обратной матрицы для них не существует в таком же 
смысле, в каком не существует числа, обратного к 0, т.е. 1/0. 

Если матрица А не вырождена, то существует единственное реше- 
ние системы линейных уравнений: 
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ар +...+архр =Ы, 


записываемой в матричном виде как 
Ах = Ь. 
Решение это имеет вид 
х= А -іБ. 


Если А”! не существует, т.е. де: А = 0, то указанная система, вообще 
говоря, не имеет решения. Она, как говорят, несовместна. 

Система Ах = 0 (называемая однородной) имеет только нулевое ре- 
шение, если де!А # 0. Если же де = 0, то она имеет ненулевое решение 
х, а также решения сх, где с — любое число. 

Продолжим обзор понятий. Заметим вначале, что если х и у- 
векторы, а А — квадратная матрица (имеющие одинаковую разме- 
рность р), то величина уГАх — это число (матрица размерности 1х1), 
ибо Ах — вектор-столбец, с которым перемножается вектор-строка 
у. Важным в теории матриц и ее приложениях (в частности, к 
многомерной статистике) является понятие положительной опреде- 
ленности. Квадратная матрица А называется положительно опре- 
деленной, если хТАх > 0 для любой ненулевого вектора х. Для 
положительно определенной матрицы А ее определитель всегда 
больше 0 и потому для нее всегда существует обратная матрица А-!, 
которая также является положительно определенной. 

Как отмечалось раньше, для любой квадратной рхр-матрицы Аи 
вектора х размерности р произведение Ах тоже есть вектор той же 
размерности. Интересно, что всегда можно найти такой вектор а, что 
Аа подобен ему, т.е. равен а с точностью до множителя А: 


Аа = Ма. 


Такой вектор называется собственным, а Х — собственным (или 
характеристическим) числом (значением) матрицы А. Найти соб- 
ственный вектор матрицы А значит решить систему уравнений 


(А —А)х = 0. 


Как указывалось, ненулевое решение системы существует лишь 
тогда, когда 


де(А — А) = 0. 


Это уравнение для нахождения собственных значений является 
полиномом р-й степени. Из линейной алгебры известно, что, вообще 
говоря, существует р различных его решений, т.е. р собственных 
значений: 21, ^›,...,^,. Каждому собственному значению А; отвечает 
собственный вектор а; (і = 1,2,.р). Поскольку однородная система 
уравнений (А — Ах = 0 имеет своим решением наряду с а, еще и са;, 
где с — произвольная константа, то можно выбрать множитель с 
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м 
таким, чтобы собственный вектор имел единичную длину. Шыны 
для собственных векторов будем всегда считать, что он 


Т 222, 
единичную длину, т.е. ара; = 1 для всех і = 1, 2,...р. 


можно доказать, что если А — симметричная поре 
) е собс 
азмерности р, то все е 
еделенная матрица р 
ие М, Хо... М положительны, а собственные векторы а1, 22,...,2р 


тогональны друг другу. я 
Я еее алын», для любых двух различных собственных значени 


№и^, (№ + №) имеем 
Аа; = Ма, Аа; = № ау. 


т т 
= №; м 
Так как А симметричная матрица (А = АТ), а; А = Ма. Позтому 


т т т 
и Да; = (а, Ада; = ХХауад. 
а Да; = а (Аа) = Ка; а). С другой стороны а; Аа; = (а; )а; = Хара; 


і і это равенство 
Отсюда следует, что А; (аа). Так как Му # №, то р 


у иа; льны. Далее, а;Аа; = 
означает, чтоа; а; = 0, т.е. векторы а; и а; ортогона Д Аа; 


Т Т 
а (Аа) = ХХатар, откуда №; = а;аја; Ад. 
1 


енная, то знаменатель 
Так как матрица А положительно определ зис 
этой дроби положителен. Числитель также положителен, и га; 


то и 
квадрат длины вектора а. Поэтому все А; положительны, ч 


требовалось доказать. | КЕ 
понятие собственного вектора и его свойства очень пара д а 
теории классификации и многомерной аал са Е. 
— это м 
за первый вопрос -- эт 
тике многомерного анали г по 
собственных векторов и собственных значений. Нередко ДЕН е 
требуется определить не все, а лишь наиболее значимые со Ран д 
чениям. - 
ольшим собственным зна 
векторы, отвечающие наиб и зла. 
задава определенных матриц существует простой итера 
метод оценки [Андерсон, 1963]. Приведем его. И 
Пусть А — положительно определенная е ета 
любым, лишь 
- тор хо. Он может бъть ; 
приближение -- век ци 
гональным к собственному вектору. Обычно в Е па 248 
сумму строк (или столбцов) матрицы А: хо = Ае, где е ; я 
5 1..1). В методе последовательны 
диничной длины, поэтому надо 


т.е. ох, а затем нормировать 


Д Т/х 
ставленный из единиц: е = (1, 
приближений используют зекторы е 


вычислить вначале длину вектора Хо, 


его: 
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Первое приближение находят путем первой итерации: 


1 
х= Ауо У ге 
а 


Все последующие итерации осуществляют аналогично: 


1 
х + Ау; 1. Дер 
І Хх; х;, 


Хо і-2,3,... 


Итерационный процесс обрывают при достижении заданного кри- 
терия точности вычислений. Например, условием окончания счета 
может быть выполнение неравенства (у; — 51| <Е, где є — заданная 
точность. В этом случае х; принимают в качестве оценки собст- 
венного вектора: а; ~ у;. В теории матриц доказывается, что най- 


денный собственный вектор имеет максимальное собственное зна- 
чение Х.. Его оценка: 


Второе по величине собственное значение № и соответствующий 
ему собственный вектор а; матрицы А находят точно таким же ите- 
рационным способом, но только примененным к матрице А), где Аз = 

т 
= А — май. 


Третье по величине собственное значение Аҙ и собственный вектор 
аз определяют путем итераций, основанных на матрице 


Аз = Аз — Ааа} итд. 


Вся итерационная процедура по определению собственных векто- 
ров прекращается, когда будут найдены все 5 намеченных к оценке 
собственных векторов с максимальными собственными значениями 
(К <р). Как мы уже указывали, существующее компьютерное обес- 
печение позволяет быстро проводить все указанные в этом разделе 
операции над векторами и матрицами. 


Уравнения динамики 


Существующий генотипический и фенотипический состав популя- 
ций обязан своими особенностями тем динамическим процессам, 
которые протекали в этих популяциях все предшествующее время. 
Популяция — это сложная динамическая система со множеством 
параметров, количественно отражающих действие факторов динами- 
ки ее фенотипического и генотипического состава. Перечислим 
основные популяционно-генетические факторы. Ведущий из них — 
отбор, определяющий направление изменений признаков в популяции 
или ее частях. Миграция генов обеспечивает генный обмен между 
группировками особей. Дрейф генов приводит к случайным изме- 
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нениям частот генов и генотипов в отдельных группировках не- 
большой численности. Мутации и рекомбинации поставляют в попу- 
ляцию новые аллели, неаллельные комбинации и отвечающие им 
новые вариации признаков. Система скрещивания характеризует осо- 
бенности подбора родителей. 

Важным инструментом в выявлении причинных зависимостей и 
особенностей формирования наблюдаемых популяционных структур 
является математическое моделирование. Среди различных биологи- 
ческих дисциплин популяционная генетика — теоретически наибо- 
лее развитая дисциплина. На сегодняшний день выявлены основные 
факторы становления генетического состава популяции, рассмотре- 
ны основные популяционно-генетические концепции, роль генети- 
ческих процессов в эволюции популяций, их учет в прогнозе попу- 
ляционной динамики. Большое значение для понимания того, что 
происходит в популяциях при доминировании тех или иных факто- 
ров, имеют математические модели. Они позволяют дать качественное 
и количественное объяснение наблюдаемым в популяциях законо- 
мерностям, а также указать, какого рода данные следовало бы 
получить в экспериментах или полевых исследованиях для решения 
поставленной задачи. 

В данном случае под математической моделью мы понимаем ана- 
литическое или компьютерное описание динамики, т.е. изменения 
частот генов и фенотипов под действием популяционно-генети- 
ческих факторов. Например, динамика частоты аллеля с учетом 
отбора и миграций описывается следующим. уравнением (см. гл. 3): 


Қа) 
ри а-т- Бур РО + тр, 
м 


где индексы { + 1 и і символизируют номера смежных поколений: жр и 
% — средняя приспособленность аллеля и соответственно средняя 
приспособленность популяции; т — коэффициент миграции; р» — 
частота аллеля в той группировке, откуда поступают мигранты. 

Особенностью данного уравнения динамики является то, что 
частота аллеля в следующем поколения является функцией частоты 
аллеля в предыдущем поколении. В общем виде такие уравнения 
записываются следующим образом: 


р“) иа 9р). 


Для упрощения записи нередко опускают индекс г в правой части 
уравнения, а индекс { + 1 заменяют на "штрих", символизирующий пе- 
реход к следующему поколению: 


.- 
р'=# (р). 

Например, уравнение динамики, составленное с учетом отбора и 
миграций, В этих обозначениях записывается так: 


4 


, Ур 
р =(1— т) —— р+ тр». 
и 
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Рис. 25. Динамика системы в пространстве частот 


Светлые кружки — состояние системы в разные моменты времени, черный кружок — 
предельное стационарное состояние (для рис. 25—27) 


Уравнения динамики могут иметь гораздо более сложные выра- 
жения и записываться в виде дифференциальных уравнений, как 
обыкновенных, так и в частных производных [Стом, Кіпшга 1970; 
Свирежев, Пасеков, 1982]. Уравнения динамики указанного вида назы- 
ваются разностными, потому что основным параметром здесь явля- 
ется сдвиг за поколение, т.е. разность Др = р' — р. Здесь для простоты 
мы рассматриваем только их. 

Следует иметь в виду, что исследуемая динамическая харак- 
теристика р — это не обязательно скалярная характеристика скажем 
частота только одного единственного аллеля. Величина р может 
быть и вектором, характеризующим несколько аллелей одного гена 
несколько генотипов, возрастных групп и т.д. В этом случае 


М 
уравнение р’=$(р) — это краткая векторная запись системы 
уравнений, описывающих динамику всей системы характеристик р = 
= (рі, рә,....р,), представляемой как точка многомерного 


пространства, иначе называемого фазовым пространством. При этом 
динамика системы в фазовом пространстве математически выглядит 
как перемещение точки р, задаваемое функцией $. Если р — одно- 

мерная характеристика, то движение происходит на прямой. Если 
р- двумернъй вектор, то движение осуществляется на двумерной 
фазовой плоскости (рис. 25), и т.д. 

Важнейшим в теории динамических систем является понятие ста- 
ционарного состояния, или стационарной точки. 

Состояние р, называют стационарным, если Др, = 0, т.е. р» =$ (р»). 

Динамическая система, находящаяся в стационарной точке, не по- 
кидает ее и остается в этом состоянии неопределенно долгое время 
Не менее важным является различение устойчивых и неустойчивых 
стационарных состояний. 

Стационарное состояние р, называют устойчивым, если при любых 
малых отклонениях от р, динамическая система остается в малой 
окрестности точки Р,. Стационарное состояние р, называют неус- 
тойчивым, если даже очень малые отклонения от р, могут привести 


со временем к значительным изменениям состояния системы. Рис. 26 
5. Зак. 1490 ` 65 


а 6 
е 
е 


Устойчивоств Неустойчивость 
рис. 26. Устойчивость и неустойчивость стационарного состояния 


демонстрирует данное определение. В теории динамических систем 
различают более тонкие ситуации. Например, стационарное со- 
стояние Р, называют асимптотически устойчивым, если после откло- 
нения система не только остается в малой окрестности точки Р», НО И 
неограниченно приближается к Р, с течением времени. Мы здесь 
практически не разделяем эти ситуации и поэтому асимптотически 
устойчивые состояния будем называть просто устойчивыми. 

Понятно, почему устойчивые состояния представляют интерес. 
Ведь это те состояния, в которые динамическая система рано или 
поздно попадет. Система может иметь несколько стационарных со- 
стояний. При этом если стационарная точка неустойчивая, то траек- 
тория динамической системы в фазовом пространстве будет "оттал- 
киваться“ от нее. К устойчивым стационарным состояниям она, 
напротив, "притягивается". В какую иэ устойчивых стационарных 
точек попадет система, определяется ее начальным положением (рис. 
27). 

Если динамическая система определена, т.е. известно уравнение 
динамики, то нахождение стационарных состояний математически 
эквивалентно решению алгебраического уравнения 


ря 8 (р). 


Существует множество подходов к его решению. Им посвящена 
обширная литература по методам вычислений, так что нет необхо- 
димости останавливаться ға этом. Иногда решение достаточно прос- 
тое (см. гл. 3). Что касается устойчивости стационарного состояния, 
то можно привести соответствующий критерий. Рассмотрим его. 

Пустьр. — стационарная частота. Обозначим Ф, производную от 
функции $ () в точке р =Р».. Тогда условие устойчивости р» сле- 


дующее: 


4 - 


Ф.|< 1. 
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Рис. 27. Динамика 
. 27. системы при наличии неск 
ольки 
симости от начального положения ВИИИ ИА Ма 


Стацион; 
ац арные точки р] *, раж, рз* — устойчивые, точка рож — неустойчивая. Штрихо- 


вые линии разделяют обл р У 
асти притяжения азличных ТОЙЧ Т Ы: 
разли ы сто ивых стационарных 


окаж 
аа ем это. Разложим функцию # (р) в окрестности точки р, в ряд 
ра, ограничиваясь линейными членами: | 


$ (р) = $.) + Ф, (р—р,) = р. + Ф, (р--Р.). 


р'= р, + Ф, (р—р,), 


или 
р’ — р, =Ф. (р—р,). 


асе отклонение от стационарной точки умень- 
ий, если Ф, < 1 для р, =Оир»ь= 1, -1 < Фф, <1 
дон промежуточного значения частоты р». Так какф. > 0 для р Е Ои 
Е г: отсюда и следует условие |$,| < 1. Соответственно условие 

у ивости будет |Ф.| >1. Неустойчивость состояний зли- 


минации (р, = 0) и фиксации (р«- 1) 
«= 1) означает наличи Й 
и. - е устойчивого 


Иногда #(р) представляется в виде 
#(р) = рЖр). 


Как 
А ар 2. из сказанного, при этом сушествует нулевое решение 
+= 0. улевое стационарное состояние определяется как решение 


67 


уравнения 


(р) = 1. 


Условие устойчивости стационарного состояния р, = 0 при этом 
и 
будет / (0) < 1; для ненулевого состояния р, условие устойчивост 


ау 
--<Оприртр,. 
ф 


Таким образом, частота р может стремиться к БҰР ыды Бастан 
аллеля А), может стремиться к 1 (фиксация аллеля А), а И а. 
таваться промежуточной (случай устойчивого полиморф со да 
будет в каждом конкретном случае, определяется пара тр, ил 
ции #, выражающимися в конечном счете в усло У 
е возникнуть вопрос, а сколь большую ценность имеет Поиск 
стационарных состояний. Ведь известно, что параметры, а 
ющие динамику (например, интенсивность и направление КА за А 
миграций), могут меняться с течением времени. ре — 
ро но ды арс атала рти 

я уравнения р- 

ОВ вни А верно, о тем не менее номиа саа 
ных состояний все равно имеет смысл по следующим он 
Во-первых, все то время, пока функция #(р) мало меняется, си 
всей системы "нацелена" на данную стационарную точку. Ера. 
тельно, все это время динамика системы прогнозируется 1. брат 
положения этой стационарной точки. Во-вторых, если функц зад 
сильно изменилась, зто означает лишь то, что надо о 4 
делить стационарную точку, а дальнейшую динамику А Е 
"отслеживать" прежними методами. В-третьих, если да Ин 
меняется быстро и хаотично, то можно определить На М 
стационарную точку, а их область в фазовом НА та 
описываемую всеми возможными флуктуациями функции 2 Дан 
самым мы найдем ту "стационарную" область, к которой ЕЕ 
пределах которой окажется динамическая система. Методы ис 

анутся прежними. . 
Е рен и к анализу стационарных о 
позволяют рассмотреть также меняющиеся во времени динамичес 

тко обсудим это. 

ШИНЕ. процесс нестационарный, т.е. уншин р 
может быть разной в разных поколениях. Обозначим ее ан пеш 
ления номера т через $ хр). Тогда динамическое уравнени 
сывается в форме. 


Ре+1=$, (ро). 
Зададимся таким вопросом: при каком условии не будет элими- 
нации аллеля. Е 0 
$. кер-0О00р- ---. 
Обозначим Фф, производную от функции +; в точке р Ф: фр 
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Проводя последовательное разложение в ряд Тейлора, получим 
Рх = (Ффо...Фа) ро: 


в окрестности нулевой точки. Следовательно, злиминации не будет, 


17 
если Пт (Ффо...фъ) > 1, или — Уф; > 0 при т э оо Аналогично усло- 
Тоо т і=1 


17 
вие отсутствия фиксации аллеля: — У Іп; > 0, где ф, — производная 
Т [=] 
функция; в точкер = 1. 
Обозначим ф такую величину, что 


А 12 
шф= іт – Уф, 


тэе іі 


Назовем ее логарифмической средней. Она обладает основным 
свойством средней величины — ее величина промежуточная в ряду 
всех фи я 

Фиат < Ф < Фмах. 

Полученный результат означает, что устойчивость (или неустой- 
чивость) состояний фиксации и элиминации аллеля определяется 
неравенством |$|<1 (соответственно |4] > 1) аналогично случаю с 
неизменными параметрами. Существенно здесь то, что соответст- 
вующее условие должно выполняться не строго каждое поколение, а 
лишь "в среднем" за ряд поколений. 

Есть ли польза от уравнений динамики в популяционных иссле- 
дованиях? Несомненно, есть, и разного плана. Во-первых, они поз- 
воляют теоретически предсказать те ситуации, которые следует ожи- 
дать при определенных сочетаниях факторов динамики. Такие 
понятия, как принципы Харди--Вайнберга и Валунда, устойчивый 
полиморфизм при отборе в пользу гетерозигот (Р. Фишер), дрейф 
генов (С. Райт), теория нейтральности (М. Кимура), коадаптация генов 
(Р. Левонтин) и др., были предсказаны и сформулированы вначале 
чисто теоретически, на основе уравнений динамики. Именно эти по- 
нятия и идеи и составляют костяк популяционной генетики. Во-вто- 

рых, на основе этой теории можно оценить факторы динамики ис- 
пользуя фактический материал. В-третьих, сопоставление моделей и 
фактов позволяет выявить "узкие" места в собранных популяционных 


данных. Это стимулирует проведение новых экспериментальных и 
полевых исследований и появление новых идей. 


Глава 2 


2 оды 
СТАТИСТИЧЕСКИЕ МЕТ 
ПОПУЛЯЦИОННОЙ ГЕНЕТИКИ 


генотипического со- 
Й енотипического и 
а е к чему приступает исследователь 
| нно- 
аботки популяцио 
й камеральной обр я 
ора и первично улици 
ое материала. Определение частот б са 
н а генетической изменчивости в предела ес. Ба. 
кенеді сени между выборками — вот перечень о е 
еи биометрических задач. Им и посвящена д 


Статис Е 
става популяций — это перв 


51 ОЦЕНКА ЧАСТОТ 


Частоты фенотипов н генотипов 


Пусть в выборке объема № име- 


стот. 
Статистическая оценка ча а а 


ется п особей данного фенотипа. Тог 


д ных выборок (см. гл. 1), величина р 


Каат - ра: как говорят, выборочной, оцен- 
енной, ; А 
В өлен стоты, которое мы обозначим через т. 


я ча Е 
нерального значени о 2. 
Е. са является несмещенной, т.е. & ірі = т (здесь & 


тематического ожидания). Дисперсия оценки р: 
у, = т(1- ту/М. 


Следовательно, статистич 
(ошибка выборочности) 


5р = Үт(1- т)/М. 


Генеральное значение парамет 
статистическую ошибку определяю 


і 
з, = УРА - РУМ, 
после чего обычно записывают о 
ошибками: 


еская ошибка оценки частоты фенотипа 


ра т обычно неизвестно. Поэтому 
т по приближенной формуле 


цениваемые параметры вместе с их 


р Ез» 

Укажем, что если обьем выборки Ае 
ниться по величине с оценкой саки иа 
ло с оценками лишь в тех случаях, к рено парни 
меньше р (или 1 - р в зависимости от величины р: 


70 


елик, то ошибка может срав- 
рактически можно иметь де- 
не менее чем в 2 раза 
е она чем 0,5 


Таблица 2 


Стандартные ошибки 8р выборочной оценки частотыР 


Генеральное значение частоты т 


0,20 
0,80 


Объем 
выборки № 


50 0,031 0,042 0,057 0,065 0,069 0,071 
100 0,022 0,030 0,040 0,046 0,049 0,050 
250 0,014 0,019 0,025 0,029 0,031 0,032 
500 0,0097 0,013 0,018 0,020 0,022 0,022 

1000 0,0069 0,0095 0,013 0,014 0,015 0,016 


или больше). Например, если в выборке объема 78 обнаружено 13 осо- 
бей определенного фенотипа, то р = 13/78 = 0,167, У, = 0,00178, откуда 
5р = 0,042. Поэтому нашу оценку частоты можно записать как р= 0,17 + 
+ 0,042. 

Аналогичны оценки и в случае, когда учитывается несколько ва- 
риаций признака (морф). Пусть в выборке объема М обнаружено т раз- 
ных фенотипов в количестве соответственно п П2,...Пи. Тогда 
оценки их частот 


рі = пи М, р = пу/М,... „Рт = п}/№ 


а ошибки соответственно 
$1 = Ур - р), за = Мр - РИМ. . „за = Ур, = РММ 


Следует отметить, что с увеличением объема выборки точность 
оценки параметров (под точностью здесь понимается величина ста- 
тистической ошибки) растет медленно. Порядок роста ее УМ, Иными 
словами, при увеличении объема выборки в 4 раза точность увели- 
чится в 2 раза, при увеличении Мв 9 раз точность возрастет в 3 раза и 
т.д. В табл. 2 указаны стандартные ошибки при разных генеральных 
частотах и объемах выборки. Из нее видно, сколь значительны статис- 
тические ошибки при небольших размерах выборки. Видно также, что 
при небольших (например, т = 0,05) или, наоборот, больших генераль- 
ных значениях частот надежные оценки возможны лишь при объемах 
выборки в несколько сот особей. 

Доверительный интервал. Ошибку 5р частот используют для на- 
хождения доверительного интервала генерального значения часто- 
ты, а именно границы интервала доверительной вероятности Р = 1-м 
вычисляют как р - из, ир + из,, где и берут из таблиц нормального 
распределения. Например: и = 1,96 дляР = 0,95. Однако такой прием в 
оценке частоты р можно использовать для вычисления довери- 
тельного интервала лишь в тех случаях, когда объем выборки таков, 
что 5, будет гораздо (в 2—3 раза как минимум) меньше чем р (если р < 
< 0,5; или меньше чем 1 - р, если р > 0,5).Если же выборки невелики, то 
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статистическое распределение ошибки не будет нормальным. Особен- 
но велико его отклонение от нормальности при крайних значениях 
частот (р < 0,2 илир > 0,8). В этих случаях распределение ошибки 
при малых размерах выборки будет крайне асимметричным, отчего 
доверительный интервал окажется смещенным. Поэтому предпочти- 
тельнее вычислять доверительные интервалы на основе точной фор- 
мулы с использованием Ғ-распределения (62 гл. 1). Укажем, как поль- 
зоваться ею. 

Пусть М — размер выборки ир= п/М — оценка частоты. Тогда с до- 
верительной вероятностью 1- а доверительный интервал для гене- 
рального значения частоты, который мы обозначим (р, р"), оп- 
ределяется по формуле 


р = пп + (М-п+ 1) Ер = + ПЕМ -п+(и+ Е"), 


где Е" — критическое табличное значение Ғ-распределения с числом 


степеней свободыу, = 2(М-п+ 1) из? = 2 для уровня значимости о/2; 


Е" — критическое значение Е- распределения су) = 2(п + 1), у. = 
= 2(№ — п) для того же уровня 0/2. Генеральное значение находится 
в интервале 


р<кте«р" (Р-1-о). 


Рассмотрим пример. Пустьв выборке объема М = 12 обнаружено две 
особи данного фенотипа. Точечная оценка частоты этого фенотипа 
р = 2/12 = 0,167. Каков 95% -ный доверительный интервал? Из таблицы 
Е-распределения при а/2 = 0,025 имеем: 


Е: = 8,54 для уу = 2(12-2+10= 22, у =2 .2=4; Е "+ 3,13 для 
у< 20 + 1)=6, #2. (12-2) = 20. Отсюда 


р’ =2/2 + (12-2 + 1) : 8,54] = 0,021, 
р" = (2+ 1): 3,1312 -2+ (2+ 1) · 3,13] = 0,484, т.е. 0,0215 тх 0,484 
(Р = 0,95). | 


Таким образом, точечная оценка частоты фенотипа равна 0,167, ее 
95%-ный доверительный интервал — (0,021; 0,484). Мы видим, что до- 
верительный интервал несимметричен относительно точечной оцен- 
ки: последняя значительно ближе к левому концу интервала. Эта свя- 
зано с асимметричностью выборочных оценок, о которой говори- 


лось. 
указанный метод точный, и мы настоятельно рекомендуем при 


построении доверительных интервалов пользоваться только им. Но 
поскольку во многих исследованиях применяют более простые 
приближенные методы, мы сейчас обсудим их достоинства и 
недостатки. 

Вычислим доверительный интервал для рассмотренного примера 
на основе распространенной формулы для ошибки частоты фенотипа 
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[$асһѕ, 1982]: 
1 1 
(р әк) - и5р = т = (о + ом) + из, (Р = 1-а), 


где и — верхнее критическое значение для нормального распре- 

деления при уровне значимости а/2. При а = 0,05 и = 1,96. Как пока- 
96. 

зывают вычисления, границы доверительного интервала 


-0,086.< т.< 0,419 (Р - 0,95). 


Мы видим, что доверительный интервал, полученный по этой фор- 
муле, сильно искажен по сравнению с интервалом, полученным Е 
ным методом. Более того, в данном случае искажение столь велико 
что левая граница интервала оказалась отрицательной, что в й 
ситуации бессмысленно. | өш 

Арксинус-преобразование. Приведенный пример показывает 
что использовать ошибку 5, в статистических расчетах нужно крайне 
осторожно. Как говорилось в $2 гл. 1, в тех ситуациях, когда рас- 
пределение оценки явно не-нормальное, следует пользоваться е Е 
мализующими преобразованиями. В данном случае им является иа 
называемый арксинус-преобразование частот 


Ф = 2агсѕіп Ма + 3/8)/(М + 3/4). 


Дисперсия величины фприближенно равна 1/М, следовательно: 


9 = УМ. точнее: 5ф = ДА + 0,5). 


ана и (оно еще называется ф-преобразованием) бы- 
собенно полезным в различного 
ода 
ат рода сравнениях частот 
Величину ф лучше всего вычислить на компьютере. Но можно обра- 
Дева и ксуществующим подробным таблицам, например И. Ликеша и 
. Ляга [1985]. Следует только иметь в виду, что они составлены для 
ф-преобразования без поправок 3/8 и 3/4. Поэтому, прежде чем об- 
а к этой таблице, следует вычислить величину р = (п + 3/8)/ 
(М + 3/4), а затем определить искомое преобразование 


ф = 2агсѕіп УЙ. 


Проверим расчеты для предыд 
ущего примера (№ = 12, п = 2 - 
менением ф-преобразования. Имеем: сащ 


“4 И ое а азоо 1 
ф-?агсвіп МО + 3/8(12 + 3/4) = 2агсѕіп \0.186 = 0,8918, 
зо УМ? = 0,289. 


Теперь доверительные 
границы для ф можно приближ - 
нить по формулам: А шамы 


Фжф-И5, ф Еф + изф, 
т.е. внашем случае: 
ф = 0,8918 - 1,96 . 0,289 = 0,3254, 
Ф" = 0,8918 + 1,96 .0,289 = 1,4582. 
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на- 
Вновь обратившись к таблицам ф-преобразования, находим во и 
чениям Ф иф" приближенные границы доверительного интер 


для частоты фенотипа: 

0,026 < п< 0,44 (Р = 0,95). 

Мы видим, что доверительные границы, полученные на градени 
ф-преобразования, близки к указанным границам, Е 
точной формуле (0,021; 0.484). Вот почему в тех случаях, когда =. 
воспользоваться точным методом (например, в задачах рия 
ческого сравнения, где требуется вычисление статистическо 
ки, см. 8 2), при анализе частот одного фенотипа предпочтительнее 

- ование. 
использовать арксинус-преобраз | 

Редкие фенотипы. В тех случаях, когда изучаемый Ди 
очень редкий и может встретиться лишь в больших выборках, Я 5 
ф-преобразование может оказываться неприменимым [Гин ма 
Полищук, 19751. В зтом случае доверительный интервал (рр) Е 
строить только на основе данной выше точной формулы. Рассмотр 
пример. 

на среди 50 тыс. потомков облученных родителей выявлено 
четыре наследственные аномалии. Следовательно, частота их = 
= 8. 10-5. Определим теперь 95% -ный доверил ИЕР и 
Согласно данной выше точной формуле, имеем: М№= 5: „п =4, 


| боды 
поэтому уҙ-2. 4 = 8, у; = 2(4 + 1) = 10; в то же время степени свобод 


у. и уз значительно больше табличных, и мы их считаем 
1 


бесконечными. Таким образом, для уровня значимости 9/2 = 0,025 
имеем: Ё' = 3,67, Е"= = 2,05. Для случая, когда р мало, ау, — 20, уз ~ %, 


выражения для доверительных границ можно записать в виде 
" 1 Ш 
р' = р", р" = Ф+ ғ. 


'=8. 105 = . 105, "= (8. 105 +2. 105). 
2.05 и 05 а аш а 2. частоты 
находится вследуюцих пределах: 
22. 105<т< 2. 10-4 (Р = 0,95). 
Можно убедиться, что применение арксинус-преобразования дает 
хорошее приближение: 
2,0. 105 <т< 1». 104 (Р = 0,95). 


Частоты кодоминантных аллелеи 


Если неизвестна генетическая детерминация различий между на а 
фами, то изучение популяций по этому признаку будет о 
ваться фенотипическим уровнем описания. В популяционно с 

‚ логии его вполне достаточно для решения ряда проблем: ӘНЕС Н 
циации популяционных группировок, выделения зон интеградации, 
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идентификации особей и др. |Яблоков, Ларина, 1985]. Однако в тех слу- 
чаях; когда важно оценить и прогнозировать динамику попу- 
ляционного состава, его изменение под действием таких факторов, 
как отбор, миграция и др., необходимо описание генетической струк- 
туры популяций. 

Частота аллеля. Пусть генетический контроль наблюдаемого в 
популяциях фенотипического разнообразия известен. В этом разделе 
рассмотрим случай кодоминирования аллелей, т.е. случай когда ал- 
лели гомологичных локусов проявляются в фенотипе особи. Обсудим 
вначале ситуацию, когда в популяциях встречается только два ал- 
леля по данному локусу. Обозначим их Аиа. Поскольку при кодо- 
минировании различимы все генотипы, в данном случае в популяции 
могут быть выявлены особи трех генотипов: АА, Аа, аа. Тогда частоты 
аллелей Аи а, которые мы обозначим соответственно рид, оце- 
ниваются по формулам. 


р = (2М№, + №2)/2М, д = (233 + №›)/2М 


где №, №, Мз — численности в выборке особей генотипов АА, Ади 
аа; М — общий объем выборки № = М, + М, + №. Если обозначить 
частоты генотипов АА, Ааи аа как Р = М/М, О = №№, К = М.М, то 
оценки частот аллелей приобретают вид: 


1 1 
р=Р+50,4=К +, 0. 


Появление множителя 2 в формулах для частот аллелей относится 
к случаю, когда изучаются диплоидные организмы (или аллопо- 
липлоиды). если же, например, рассматриваются автотетраплоиды, то 
формулы для подсчета частот аллелей иные (Ли, 1978]. Однако во всех 
этих случаях независимо от числа гомологичных локусов спра- 
ведлива следующая трактовка формул для частот аллелей: частота 
аллеля равна отношению его численности к общему числу 
изученных аллелей. Например, для диплоидов 2№: + № — число 
аллелей А в выборке, 2М — общее число аллелей в выборке. Отметим, 
что частоты аллелей взаимосвязаны: р + 4 =1. Поэтому в данном слу- 
чае достаточно оценить частоту только одного из аллелей, скажем А. 
Частоту другого аллеля а можно уже не вычислять, так как она 
дополняет частоту аллеля А до 1: 4 = 1 – р. Ниже мы везде 
ограничиваемся рассмотрением только диплоидных организмов. 

Статистическая ошибка. Какова ошибка оценки частоты кодо- 
минантного аллеля? По аналогии с обычной ошибкой, рассмотренной 
в предыдущем раэделе, во многих руководствах по генетике по- 
пуляций рекомендуют вычислять ошибку частоты аллеля по формуле 
5р = Ут 

Однако здесь кроется одна статистическая неточность. Дело в том, 
что число аллелей А (т.е. 2М, + №) — это не исходно наблюдаемые 
численности, а сумма наблюдаемых численностей генотипов. Поэто- 
му число аллелей, строго говоря, не распределено по биномиаль- 
ному закону, вследствие чего данная формула для ошибки частоты 
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аллеля неточна. Здесь возникает ситуация, характерная и для ряда 
других задач, связанных с оценкой частот аллелей. 

Действительно, рассмотрим крайний случай, когда в популяции 
присутствуют в основном гетерозиготные особи, а гомозиготные 
встречаются лишь изредка. Ясно, что в этом случае оценка частоты 
аллеля близка к 0,5 и будет иметь почти нулевую дисперсию, посколь- 
ку наряду с аллелем А мы почти всегда будем "выбирать" из попу- 
ляции и аллель а. Рассмотрим теперь противоположный случай, ког- 
да гетерозиготы почти полностью ‚отсутствуют‘. В этом случае дис- 
персия оценки частоты аллеля будет гораздо больше, чем это дается 
обсуждаемой формулой, поскольку аллели в зиготах положительно 
скоррелированы; практически здесь мы имеем выборку не 2М, а всего 
М независимых генов. Таким образом, в рассмотренных крайних слу- 
чаях данная выборочная ошибка частоты аллеля неверна. Поэтому 
всегда важно знать ограничения и теоретические допущения, на ос- 
нове которых получена та или иная формула. 

Более полное выражение для ошибки частоты гена следующее: 


р 2М 


где = (2р4 — О/Ора) — нормированное отклонение теоретически 
ожидаемой частоты гетерозиготных особей 2ра от их фактической 
частоты 0;а+1-р. Строго говоря, в этой формуле Ғ — это гене- 
ральное значение отклонения, так же какир — генеральная частота, 
однако, как и прежде, вместо неизвестных генеральных значений 
частот аллелей и частоты гетерозигот мы берем их выборочные 
оценки. Отметим, что можно представить Е в эквивалентной форме: 
Е=(Р—Р?/РА — Р), или Ё =(К— Фа — 9). 

Отсюда видно, что величину Е можно трактовать еще и как откло- 
нение фактической частоты гомозигот от их теоретически ожи- 
даемого значения, номированное к дисперсии аллеля. 

В большинстве ситуаций разница между значениями ошибок, полу- 
ченных с учетом величины Ғ и без ее учета, кажется несущественной, 
и она действительно такова. Однако в популяционной биометрии 
важно знать ограничения, допускаемые любым методом. В частности, 
это поможет избежать ошибок, когда, пусть редко, отклонение от со- 
отношений Харди --Вайнберга в популяциях значительно. 

Рассмотрим следующий пример. В табл. 3 представлены чис- 
ленности генотипов по локусу Ез-1 у копепод Тлашша дагуіпі в выбор- 
ках, взятых в акватории Тихого океана (данные М. Флинта и К. Афа- 
насьева); аллель с наиболее частый, все редкие аллели объединены и 
обозначены как С. Результаты расчетов показывают, что во всех 
выборках имеется значимый дефицит гетеризогот. Поэтому 
статистические ошибки, вычисленные с учетом Е, здесь несколько 
большие, чем без его учета. 

Следует иметь в виду, что Е — это выборочная оценка, а не гене- 
ральное значение отклонение частоты генотипа от теоретически 
ожидаемого. Поэтому формулу, учитывающую Е, можно использовать 
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Таблица 3 


Оценка частот аллеля С по локусуЕя-1 у Опііпща дагуіпі 


Статистическая 


Е ошибка 5р 


Выборка Частота 


аллеля С 
с учетом | без учета 
Е Е 
№3452: 
утро 53 
200 3 ыы ан ОЛЫ леа 
„759 
5 0,39 0,069 0,058 
утро 106 
ен № 2 + г а | 0,34 0,044 0,038 
„714 ] 
Ека 0,30 0,074 0,065 
утро 54 
3 13 38 0,824 0,17 0,056 0,052 


ШАА —————2 


лишь вт 
Кара Зад случаях, когда статистически доказана значимость отли 
типов ас ля. В связи с этим отметим, что при Ғ = 0 частоты ген 
ы о. летворяют следующим соотношениям: 0 = 2рд, Р = р? Ру е 
4, вивалентно равенству 02 = 4РА [Л , р. = 
носат названде соса и, 1978]. Эти соотношения 
при определенны ношений Харди —Вайнберга. Они уставливаются 
ов х ограничениях на структуру популяции и факто 
рование на 255 хары е отличия Е от нуля - это 5 
ния Харди--Вайнберга. М. с 
рования рга. Методам такого Е 
въвод с следующий раздел. А сейчас мы прйвадем 
а Е я 5р, чтобы продемонстрировать важность изло 
. 1 общих принципов < 
тических ошибок. йа ПЕРИНИН ОЦЕНОК И ЦИК Тати 
Итак, п 
‚ пусть Р, Ои К — оценки частот генотипов АА, Аа и аа ввыбо- 


ке 
р объема М. Оценка частоты аллеля А будет р=Р + 19 Следо 
вательно, дисперсия частоты р: $ 


1 
У(р)= УР) + У(@)+ Соу (Р, 0), 


где у и дисперсия С У — р Мы что Ч 


Ра- 
ир- 29 уо 2—0) 


М М 
Известно также, что ковариация величин Ри О Ли, 1978]; 
Соу, 0) = - Р@ і : 
М: 


Следовательно: У(р) = Р-Р) + 1001-0) _РО 


М 4 М М” 
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Проведя алгебраические преобразования, получим искомую фор- 
мулу 


ра-р) 
У(р)=——— +2). 
2м 
Множественные аллели. А в заключение раздела расе ир 
аллел 
я серия множественных 
когда в популяции имеетс с 
А ССА һ Аз»...Ат (т -- количество аллелей). В этом 
с | ОВ: 
случае в популяции может быть т(т--1)/2 возможных генотип 


т гомозигот АА, АзАз,..., А „Ам 
т(т-1)/2 гетерозигот А42, А Аз,..., Аъ Ам: 


ГВ 
Основными первичными генетическими характеристиками Е 
ционных группировок по отдельным ии а. деди 
обозначим Р,, и частоты А 
нотипов 4;4;, которые мы ; 18 ый 
начаемые РИ Если №; — численность особей генотипа А;А;в выбор 
А и 
объема ММ = УМ), то частоты генотипов и аллелей определяются 
= У№;), 


мулам: 
форму ыты 
= №.. га реу р. 
Ру = Му [М р: ВХ ў? 
я і 
т.е. частота аллеля А; равна частоте гомозиготы АА; ек 2. 
9% стот всех гетерозиготных по аллелю А; особей. Стати 


вина ча! ет 
ческая ошибка частот аллелей $; = ү р 1 - рр/2М. 


ической 

Каки в случае двух аллелей, это выражение для и ао 

ошибки справедливо, строго говоря, лишь в том БДА оиди Р 
неральной совокупности хотя бы приблизительно 


ношения Харди-Вайнберга. 


Соотношения Харди-Вайнберга 


В предыдущем разделе мы выяснили, что стандартная формула ска 
въчисления статистических ошибок частоты аллеля, строго ділің 
справедлива лишь при определенных соотношениях между ИЕ 
ми генотипов — соотношениях Харди—Вайнберга. Эти соотно На, 
имеют, и зто главное, популяционно-генетическую и Да 

| сост 

—Вайнберга — это своего рода 

гл. 3): соотношения Харди с 

покоя" популяционно-генетической структуры по Е 

сам, от которого ее смещают факторы популяционной Е т та: 

тистическое тестирование на значимость осна. 252 ча 

о популяционно-генет 

пременный атрибут первичног 

а данных, так как только после этого можно переходить к оа 

частот аллелей и их ошибок, а также к задаче сравнения их част 

(см. 52 этой главы). Б 

Суть статистической проверки соотношений Харди Вайнберга в 

следующем. Пусть М, №, Мз — численности генотипов АА, Аа, аав 

; н и 
выборке; ее объем М = М + № + Мҙ. Обозначим п; = 2М + Мо и 12 
че 


2№з+ Мо — число аллелей А и ав выборке; общее число аллелей я=2М№М = 
= п + по; оценки частот аллелей: р = пі/п,4 =1-р. Теоретически 
ожидаемые численности генотипов в выборке объема М при данных 
частотах аллелей: 

Е = РМ, Е,-2раУ, Ез = ФУ 


для генотипов АА, Аа, и аа соответственно (в силу соотношений Хар- 
ди—Вайнберга). Фактические, наблюдаемые численности М), № и М; 
отличаются от теоретически ожидаемых Ё}, Е», Ез. Это отличие обу- 
словлено либо только случайным выборочным отклонением от гене- 
рального харди-вайнбергова соотношения, либо отклонением самих 
генеральных соотношений частот генотипов в популяции от предпо- 
лагаемых харди-вайнберговых. Статистические критерии и должны 
выбрать между первой ситуацией (нуль-гипотезой) и второй ситуа- 
цией (альтернативной гипотезой). 

Точный критерий. Имеется большая литература по критериям 
статистической значимости отклонения от соотношений Харди—Вай- 
нберга. Мы укажем на общеизвестный точный критерий для двух ал- 
лелей. 

Рассмотрим вначале теорию критерия. Пусть р и 4 — частоты алле- 
лей Аиа при справедливости нуль-гипотезы (т.е. при выполнении 
соотношений Харди- Вайнберга). В этом случае частоты генотипов бу- 
дут соответственно равны р2, 2р4, 42. Наша конкретная выборка с чис- 
ленностью генотипов №1, №, Ма — это однократная реализация при 
случайном отборе проб. Вообще говоря могли быть любые другие со- 
отношения численностей генотипов АА, Аа и аа в выборке при той же 
общей численности №. Обозначим их Му, М», Мз. Согласно теории, ве- 
роятность того, что в случайной выборке объема М численности ге- 
нотипов АА, Ааи аа будут М,, М›, Мз, соответствует полиномиаль- 
ному (в данном случае триномиальному) закону: 


МЕ ж 2 М! М; 2 Мз 
мым) атм? (24) (4 0 


М Мэ 2Му+М2 2Мҙ%М; 
М! Мо! ма! 


Суть всех статистических критериев значимости заключается в 
суммировании вероятностей всех возможных выборок, подчиняю- 
щихся заданному условию, и в сравнении ее с выбранным уровнем 
значимости а. Если эта суммарная вероятность меньше а, то нуль- 
гипотеза отвергается на уровне значимости о. Поскольку проверка 
соотношений Харди-Вайнберга основана на оценке отклонений 
фактических частот генотипов от теоретически ожидаемых при 
данных частотах аллелей, следует знать вероятности не всех 
возможных выборок (Му, М, Мз), а лишь тех, для которых вы- 
борочные частоты аллелей те же, что ив фактически имеющейся вы- 
борке. Иными словами, следует вычислить вероятности получения 


Р(М1,М:,М)- 
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2М; + Мо = т 
всевозможных выборок (М1, М», Мз), но с условием, рана 1 2 
и 2Мз + М) = пз. Обозначим эти условные вероятности ка 
Р(М,, М», Мз/тъпо). 
ННОСТИ ГОМОЗИГОТ можно выразить через чис- 
1 
, = 1 (п, – Мо). 
ленности гетерозигот: М} = (ту - Мо), Мз = 3 ("2 2) на 
в я 
Не все возможные выборки удовлетворяются указанному усло 


ч | 2 ч т аспре- 
пі, а число аллелей а равно по, ПОД иняется биномиальному р р 
1» 


делению: 


п! 
мути 


Отметим, что числе 


р"4'. 


условная вероятность Р(А/В) равна 


стей 
Согласно теории вероятно , 2 рх 
отношению вероятности пересечения событий к вероятности усл 


ного события: Р (А/В) =Р (А/ВУР (В), т.е. 


-М п2- Мо 
Ра Ма. б 
= ------------“-- ғ 
р(М,,Мҙ.Мҙ/т.0%) а) 
Проведя преобразования, получим 
Мітіт)! „Мо 


смара 
Р(Му, Ма, Мз [т,пз) ом) Мм) 
2:2 


Так как в этом выражении числа 1, 12 И М фиксированы мы 
— аллельная характеристика наблюденной выборки), асанда 
ные выборки с теми же самыми аллельными а гуяа 
определяются только числом Мо. Значит, и Г род а 
Мо, Мут, по), по сути дела, зависит только от Мз, поэтому 


ве кратко Р(М)). 


? Первая 
Какие же выборки удовлетворяют указанным условиям р 


возможная выборка — это наша фактически неблюдела іи сен Ая 
которой М» = №. Так как М; — численность гетерозиг гор ЕА 
пу Мз и пз – М2 должны быть целыми, то все остал са 
получаются последовательным уменьшением па а Е 
величины М; на 2. При этом сумма всех вероятностей бу. 


ГРОМ) +1 —2) + РОМ — 4) + 1 + [РМ +2) + Р(№ +4) +..]=1. 


комой вероятности нужны лишь те вели- 


Однако для получения ис и 
тне из этой суммы, которые не превышают Р(М2), это именно те 


можные выборки, для которых отклонение от Е аи 
ди--Вайнберга бъло бъ еще больше, чем для нашей факти 


ки. | 4 
а следует такое определение точного критерия: уровень зна 
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чимости а равен сумме всех тех величин Р(№ - 2), РС Мо + 2), Р(№ - 4), 


Р(М; + 4) и т.д., которые не превышают Р(№2); в эту сумму включается и 
величина Р(М;). 


Приближенные критерии. Ясно, что точный критерий можно 
успешно реализовать только на компьютере. Кроме того, при больших 
численностях выборок обьем вычислений может оказаться слишком 
большим и привести к затратам компьютерного времени. Позтому су- 
ществуют приближенные критерии значимости. 

Для случая двух аллелей имеется много различных тестов (см. об- 
зор: [Животовский, 1983]). Упомянем вначале стандартный критерий, 
рекомендуемый во многих руководствах. 

Критерий 2: 


2 
1 
х2 - (ма -1 м). 


Он распределен примерно как "хи-квадрат" с одной степенью сво- 
боды. Это вполне удовлетворительный общий критерий, однако име- 
ются и специализированные, а именно в случае, когда нет избытка 
гетерозигот (наиболее часто встречающийся случай), когда факти- 
ческая их численность меньше теоретически ожидаемой, лучшим тес- 


том является указанный критерий "хи-квадрат", но с поправкой на 
непрерывность: 


где Е, Е», Ез — ожидаемые, а №, №, Мз — фактические численности 
генотипов в выборке. 

Если же в популяции ожидается избыток гетерозигот, то более 
подходящим является следующий критерий [Етірћ, 1980]: 


т рте) 


Все указанные критерии распределены. как Х2 с одной степенью 
свободы. 

Отметим все же, что при относительно небольших размерах выбо- 
рок наиболее предпочтительно вычисление точного критерия, так 
как доверительные границы, полученные любым из указанных тестов, 
отличаются от точных, в особенности при крайних частотах аллелей 
и малых выборках. 

Отметим, что при малых объемах выборки (до 50—100 особей) и 
крайних частотах аллелей (близких к 0 или 1) чаще ожидается слу- 
чайный эксцесс гетерозигот в выборке, чем их дефицит |Мауитйег, 
Спакгабопу, 1981], даже если в генеральной популяции выполняются 
соотношения Харди -Вайнберга. Например, вероятность эксцесса гете- 
розигот в выборке, взятой из популяции, в которой выполняются 
соотношения Харди-Вайнберга: 0,84 для п=50, р=0,05; 0,62-для п-200, 


6. Зак. 1490 с 


р-0,05; 0,63-для п=50, р=0,10. При этом, однако, случайный дефицит 
гетерозигот выражен количественно сильнее, чем эксцесс. 

Множественные аллели. Все указанные приближенные тесты 
изучены подробно лишь для диалельного случая. И хотя для мно- 
жественных аллелей существует точный критерий, подобный рас- 
смотренному, но он очень громоздкий. Поэтому обычно и в этом слу- 
чае пользуются стандартным х2-критерием: 


М. — М.) 
х? -у! А х №) , 
Му 
А 
где М,-фактические численности генотипов АД, Му- их теорети- 


чески ожидаемые численности: 


2 
қ РЕМ 


ў |Әр)р)М для гетерозигот АА; 


для гомозигот АА, 


р,-оцененные частоты аллелей; М-обшая численность выборки. 
Уровень значимости отклонения от соотношений Харди-Вайнберга 
определяется по величине Х? обычным образом: сравнением с х2- 


т(т-1). где.т- 


распределением с числом степеней свободы у = 
число аллелей. 

К сожалению, этот критерий применим лишь в случае достаточно 
больших ожидаемых численностей генотипов М На практике, осо- 
бенно в случае трех или более аллелей, ожидаемые численности ред- 
ких генотипов обычно малы и, следовательно, указанный критерий не 
может быть использован. 

Известны рекомендации, что ожидаемые численности не должны 
быть меньше 10, кроме, быть может, одного, которое может достигать 
1; наиболее "либеральные" авторы снижают последнее до 0,5 Крамер, 
1975; Зока!, Коһ1:,19811.К сожалению, нередки ситуации, когда эта ре- 
комендация не подходит; например, малы ожидаемые численности не 
для одного, а для нескольких генотипов. Это почти всегда бывает 
при анализе 4-5-аллельных систем, когда частоты некоторых аллелей 
достаточно низки и ожидаемые частоты гомозигот по ним ничтожны; 
нередко малы ожидаемые численности не только гомозигот, но и ге- 
терозигот по этим аллелям. Практикуемое объединение редких алле- 
лей зачастую спасает ситуацию, но при этом мощность критерия (т.е. 
способность данной полиаллельной системы выявить отклонения, 
если они есть) может упасть, поскольку популяционно-генетические 
процессы могут в первую очередь сказаться на редких аллелях. 

Модификация "хи-квадрат" критерия. Для ситуаций с малыми 
ожидаемыми численностями предложен общий подход для анализа 
таблиц сопряженности, позволяющий модифицировать критерий “хи- 
квадрат" [Мазз, 1959]. Применительно к нашей задаче его можно ис- 
пользовать следующим образом {Животовский, 1983]. 

Пусть Х2-значение формально вычисленного критерия "хи-квад- 
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Таблица 4 


Модификация "хи-квадрат”-критерия для проверки соответствия 
фактических частот генотипов распределению Харди —Вайнберга 


1 12 4 


Фактические 81 2 


численности 


Частоты аллелей р: = 0,890 р 2 = 0,080 Рз = 0,030 
Ожидаемые 79,21 0,64 0,09 14,24 5,34 0,48 
численности Е; 

Критерий х2 0,04 2,89 9,20 0,35 0,34 0,56 

Х2 = 134 
ИЕ; 0,01 1,56 1,11 0,07 0,19 2,08 
сумма - 15,0 
Вычисление а 4-із 15,0 36+12-2 2 
10 10000 зи 
Вычисление Сим” 13,4 
С-----5,47; у- #1 
145 гето 

Вычисление Ха в = 2,5182 + 1,282 . 1,22 - 0,0021. 
критического 2 
аналния . 1,227 + 1,3712 . 1,22 = 4,35 


рат , даже если ожидаемые численности невелики. Пусть у-число сте- 


В т(т-1 
п р 
еней свободы, т.е. у тт 1) Обозначим Е, — ожидаемые числен- 


ности генотипов. Необходимо вначале вычислить величину а: 
1 тъ ,242п-2 


ДЕ: иу 


На основе этой величины оцениваются Си г": 
С=Х? [а, у'=у/ 4. 


Оказывается, что величина С распределена примерно по Х су" 
степенями свободы. Причем эта аппроксимация гораздо лучше, чем 
исходная-для Х? с у степенями свободы. Отметим, что в данном 
случае число степеней свободы г" может быть дробным числом. Тог- 
да следует обратиться к табл.1 (см.5 2 гл.!). | 

Рассмотрим Условный пример, поясняющий суть дела. Допустим 
что в некой популяции электрофоретически выявляемая изменчи- 
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вость некоторого фермента определяется тремя аллелями. В выборке 
из 100 особей обнаружены пять из шести генотипов, численности ко- 
торых представлены в табл.4. Проведя формальный расчет по стан- 
дартному критерию х, легко убедиться, что он неприменим, пос- 
кольку ожидаемые численности генотипов А;А;, АзАз, АгАз Незначи- 
тельны. Воспользуемся модификацией критерия. Проведя соответст- 
вующие вычисления (см. табл.4), получаемС = 5,47, а число степеней 
свободы у”-1,22. 


Вычислив критическое значение х2 (у) для о-0,05 по табл.1 $ 2 гл.1, 


получим Ха = 4,35. Так как С>4,35, то отклонение от соотношений 


Харди-Вайнберга значимо на 5%=ном уровне. 

Дефицит гетерозигот, проявляющийся в отклонении фактических 
численностей от теоретически ожидаемых по Харди-Вайнбергу, об- 
наруживается (см. табл. 3) в основном лишь у редких генотипов. По- 
этому если бы мы объединили .. редкие аллели Ази Аз и рассмотре- 
ли данную систему как двуаллельную, то значимость отклонений от 
соотношений Харди-Вайнберга мы бы не обнаружили. Таким образом, 
данная модификация х2-критерия позволяет увеличить его мощ- 
ность. Однако неизвестны границы ее применимости. Вероятно, одно 
минимальное ожидаемое может достигать 0,1-0,2, но при условии, 
что численности большинства генотипов больше 5-10. 


Оценка частот аллелей при доминировании 


При доминировании мы не можем оценить частоты аллелей непо- 
средственным подсчетом, т.е. так, как это делали в случае кодомини- 
рования. Принципы расчета здесь иные. Рассмотрим вначале простей- 
шую ситуацию с двумя аллелями А иа, где А доминирует над а. При 
этом различимы особи лишь двух фенотипов: гомозиготы по рецес- 
сивному аллелю ааи особи, имеющие хотя бы один аллель А: АА и Аа. 
Пусть имеется выборка объема М, в ней п особей с рецессивным приз- 
наком (генотип аа) и М-п особей с доминантным признаком. оценка ча- 
стоты рецессивной гомозиготы (обозначим ее А) и ее дисперсия, как 
следует из теории биномиального распределения: 


К =п/М, У(К) = КО-КУМ. р 


Таким образом, непосредственно мы можем оценить только часто- 
ту гомозигот аа и частоту особей альтернативного фенотипа. Частоты 
аллелей А и а оценить, вообще говоря, нельзя. Действительно, при 
одних и тех же соотношениях фенотипов частоты генотипов и 
аллелей могут быть разными. Пусть, например, рецессивных гомози- 
гот аа в популяции обнаружено 50%. Следовательно, 50% особей име- 
ют доминантный признак. Но из них может быть 40% Ааи 10% АА, а 
может быть 10% Ааи 40% АА (последнее возможно, например, при вы- 
соком уровне самооплодотворения). В первом случае частота аллеля 
а равна 0,5 + 1/2-0,4 = 0,7; во втором случае -0,5+1/2:0,1 = 0,55. 

Подобную неопределенность в оценке частот аллелей можно уст- 
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ранить, лишь определив соотношения между частотами генотипов 
Для этого надо либо применить новую методику непосредственной 
идентификации гетерозигот Аа и гомозигот АА, либо выявлять гено- 
типы через анализ потомков. Если ни то, ни другое невозможно, то 
можно приближенно оценить частоты аллелей, делая априорные 
предположения о соотношении частот генотипов. Хорошо известно 
одно такое допущение: соотношения Харди--Вайнберга, а именно 
предполагают, что частоты генотипов АА, Аа и аа распределены в со- 
отношении р», 2р4, 42. Это позволяет однозначно оценить частоты ал- 
лелей. Такое допущение делают и в случае множественных аллелей 
Мы сейчас рассмотрим методы оценки, основанные на нем Отметим 
лишь, что оценки частот аллелей, полученные этим путем точны нас- 
только, насколько выполняются соотношения Хайди—Вайнберга При 
значительных отклонениях от этих соотношений оценки частот алле- 
лей могут оказаться сильно смещенными. 
№ о двух аллелей. Итак, пусть К = п/М — оценка частоты 
се Жж отрови признаком. Дисперсия этой оценки У, = 
В силу отношений Харди--Вайнберга имеем: К = 42, откуда частота 
рецессивного аллеля 4 = ЧЕ! Ее дисперсия (см. $3 гл. 1) (94/9)?Ур. Так 
как да/9К = 1/(24К ): ы 
1. 1-К 


48 Ув = ду? Или 


Уф = (1-92/4М. 
Поэтому статистическая ошибка частоты аллеля а: 


а = МУ = Ү(1-424М). 


Формула для частоты доминантного аллеля А следует из приве- 
денного выражения для частоты аллеля а, поскольку величина р 
дополняет 4 доединицы: 


р=1- МК. 


При этом дисперсия оценки 
рв точности та ж _ 
так какр- 1-4): е, что и для д (Ур = Уд, 


Ур = (1-42)/(4М). 


Формулу для дисперсии оценок можно записать в ином виде: 


1- 2 
у. _Р-Р) ‚Ру 901-4), (01-9)? 
Р 2М + ал” Уа- 2М + АМ . 


Уд = 


Отсюда видно, что при доминировании статистическая ошибка час- 
тот аллелей больше, чем в случае кодоминирования. Это обусловлено 
меньшей информацией: при кодоминировании мы имеем сведения о 
трех генотипических группах, здесь — о двух. Это общее правило: 
уменьшение информации приводит к большей неопределенности и 
неточности оценки, т.е. увеличивает статистическую ошибку. 
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Множественные аллели с последовательным доминирова- 
нием. Для ряда признаков, проявление которых обусловлено нали- 
чием продукта (например, пигмента), синтезируемого в длинной цепи 
последовательных ферментативных реакций, характерно существова- 
ние серии аллелей, каждый из которых последовательно доминирует 
над всеми предыдущими. Число фенотипов при этом равно числу ал- 
лелей. Такое отношение доминирования связано, напри мер, с тем, что 
мутантный аллель, блокирующий синтез в определенном звене, доми- 
нирует над всеми мутациями, прерывающими цепь реакции раньше. 
Это характерно, вчастности, для вариаций окраски. Классический 
пример — альбинизм у кролика. Наследование окраса животных опре- 
деляется серией аллелей. Основные из них: С — аллель дикого типа, 
сев — аллель, обусловливающий окраску "шиншилла", с — альбиноти- 
ческий аллель. При этом с — полностью рецессивный аллель; сев — до- 
минирует над с; С доминирует и над с, и над с“. Поэтому в данном 
случае может быть только три фенотипа: сплошной серый окрас (ге- 
нотипы СС, Сс", Сс), шиншилла (сейсей, сенс) и альбиносы (сс). Вообше 
говоря, у кролика известны и другие аллели этой серии, например 
аллель гималайской окраски св. По степени доминирования он нахо- 
дится между с“ и с: доминирует над си рецессивен по отношению к 
сев и С. Подобное последовательное доминирование известно не 
только у животных, нои у растений, например, рисунок листа У бело- 
го клевера ТоНит герепз (5шглікі еі а]., 1986]. 

Перейдем к методам оценки частот множественных аллелей с пос- 
ледовательным доминированием. Вначале рассмотрим случай трех 
аллелей; обозначим их А, а иа. Пусть А доминирует над а иа, а" до- 
минирует нада. Частоты этих аллелей обозначим соответственно р,4, 
иг. В рассматриваемом случае имеются три фенотипа: Ғ (особи, имею- 
щие хотя бы один аллель А), (особи, имеющие хотя бы один аллельа', 
но не имеющие аллеля А) и /(рецессивные гомозиготы аа). Пусть в вы- 
борке объема М численности этих фенотипов будут М, №», Мз; часто- 
ты их обозначим Р = ММ ‚О = №№, К = МУ/М. 

Рассмотрим следующую таблицу: 


фенотипы Е 7 
генотипъ АА Аа' Аа “аа аа С аа 
2 4 
частоты генотипов 2рг 
р” 2рӯ 2р 4224 2 
частоты фенотипов Р 0 В 


Из нее следует, что если объединить фенотипы фи’, то частоту 
аллеля а можно определить так, как в случае двух аллелей: 


Қ УК, ұш (1-72)/(4М,). 


Далее заметим, что если объединить фенотипы [ито можно оце- 
нить суммарную частоту аллелей а и а по аналогичной формуле: 


4+г= ЧО + К, У. = П - (9+ РАМ). 


Так какр дополняет 4 + г до единици, то частота доминантного 
аллеляА: 


р= 1-\0 + В, 
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а дисперсия Ур совпадает с Ү,.,: 


Ур = П-(4 + 21/(4М), или 
Ур = 1002 - ру/4м). 


Что касается частоты аллеля а', то 


4= (9+7) -г=\0+В-\. 


Формула для У. пол 
4 учается путем подсчета произво 
указано в 63 гл. 1 (см. {Ли, 1978): р дных, как 


1-42 
уе Фо. 
4% Ам ШҮТІСЕТІ 


Таким образом, оценки ч 
Я астот трех аллелей при последов 
доминировании следующие: ? или 


р-1-Ү0%Е, а= МО +К- МЕ, ,- УК. 
Формулм для дисперсий зтих оценок можно записать в виде: 


р 
+2—— 
у, = Р-р), р аса т) 
2м ам” 4 2м 4м 
2 _,12 
и ) 0 Е) 
2М 4М 


Хе как и в предыдущем пункте, видно, насколько увеличивается 
дисперсия оценки по сравнению со случаем кодоминирования. Ошиб- 


ц а. 


= У, з= У, з, АМ. 


Полученные формулы легко обобщаются на случай произвольного 
числа аллелей с последовательным доминированием. Пусть А;, А 
„А „аллели, причем А! доминирует над всеми, А, ОИ ВУ аА 
Аз, Ад и др., Аҙ - над оставшимися и т.д. А, рецессивен по 
отношению ко всем остальным аллелям. Пусть в выборке объема М 
имеется №, особей первого фенотипа (имеющих аллель А |), № особей 
второго ‚фенотипа (с аллелем А >) ит.д., М, особей с Бецевеинна 
признаком (генотип А „А „). Обозначим частоты фенотипов: 


„М _ № №, 


Тогда оценки частот аллелей р1,ро,..., р„ имеют следующий вид: 
В =1-41-Р, Р,-Үр,, 
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Дисперсии этих оценок таковы: 


у РАР) ВР у райсра), (-ра/! 


Эм АМ’ 2М 4” 
к-1” т 

Ру | Рк+2| ХР | р; 
ігі ікК 


рк(1 — РО 
ом.“ АМ 


Сочетание доминирования и кодоминирования. Обсудим те- 
перь методы оценки частот, когда наряду с отношениями доминиро- 
вания есть и кодоминирование аллелей. Ограничимся случаем трех 
аллелей и рассмотрим две ситуации: с кодоминированием между со- 
бой двух доминантных аллелей и с кодоминированием между собой 
двух рецессивных аллелей. 

Обратимся вначале к первой ситуации. Примером здесь может слу- 
жить система АВО групп крови человека. По антигенному составу 
эритроцитов и антителам плазмы крови выделяют четыре основные 
фенотипические группы, обозначаемые О, А, Ви АВ (соответственно 
первая, вторая, третья и четвертая группы крови). Они детермини- 
руются тремя аллелями, определяющими: синтез антигена А (аллель 
14), антигена В (аллель [В) или их отсутствие (аллельі). Аллели Аи 18 
кодоминантны по отношению друг к другу, но оба они доминируют 
над аллелем і. Частоты И, Ви і обозначим соответственно р, фиг. 
Пусть в выборке объема М обнаружено Мав, Мл, Мви № индивидов 


Мав 
соответствующего фенотипа; обозначим Р их частоты: Рав = м, 
М, Р М 
РА = да Рв= го Ро гта Составим следующую таблицу: 

АВ А В 0 
фенотипы А 
генотипы ма ТАЈА А; 1818 В; и 
частоты генотипов 2р4 р? ?рг 424" 2 
—_— м Р 
частоты фенотипов РАВ РА Рв 0 


Для оценки частот аллелей используют подход, примененный в 
предыдущем пункте; можно воспользоваться также общим методом — 
методом максимального правдоподобия. Здесь мы ограничимся кон- 
статацией результата. Отметим лишь, что хорошо известны две оцен- 
ки частот аллелей: Бернштейна и Винера [Ли, 1978]. Для каждой из 
этих оценок сумма частот аллелей не равна 1, и поэтому используют 
поправки. Мы приведем здесь метод Бернштейна как наиболее упот- 
ребительный. По этому методу вначале вычисляют промежуточные 
величины: 


р- 1- Рр + Ро, 4-1- РА +Ро, к- ҮРо, 
азатем, определив поправку 


р- 1-04 ж), 
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оценивают частоты аллелей по формулам: 
р=ра+р), 4=4'+р0), г< (+) а+р). 
Эти оценки очень близки к оценкам, полученным наиболее опти- 
мальным, хотя и громоздким, методом максимального правдоподо- 


бия. Поэтому можно использовать наиболее эффективные оценки дис- 
персий, характерные для этого метода: 


| р» 
Ур- Да р) 


ра +г 
442 ат 
Уч = м пе 15) 
А ма а. 
АЛАД"! 


Эти дисперсии можно представить в следующем виде: 


р РЕ, 


2М рог 
ПЕНИЕ бп 
4 28 вм раҡ,” 
у Қа») т) ФЕ: г. 
"7 2М 8М ӨМ  ра+г 


Здесь хорошо видно, насколько увеличивается дисперсия оценок 
по сравнению со случаем кодоминирования. 

Отметим, что в общем случае, когда требуется оценить частоты 
множественных аллелей со смешанными отношениями доминирова- 
ния и кодоминирования, метод максимального правдоподобия ста- 
новится единственным приемлемым методом. 

Обратимся теперь ко второй ситуации — кодоминированию рецес- 
сивных аллелей. Пример — локус мие у О. теіапоравіег. Пусть и” — 
аллель дикого типа, обусловливающий красную окраску глаз. Он до- 
минирует над всеми мутантными аллелями этого локуса. Рецессив- 
ный аллель у определяет белый цвет глаз. Однако мутация м“, приво- 
дящая к абрикосовому цвету, кодоминантна по отношению к у: у 
гетерозигот игуу интенсивность окраски глаз промежуточная между 
мау и му. Поэтому эти гетерозиготные мухи легко отличимы от го- 
мозигот по аллелям и и у. Предложим метод оценки частот аллелей 
для этой ситуации. 

Пусть в выборке объема М обнаружено М» особей "дикого" фено- 
типа, №, — особей му, №) — гетерозигот уу) и Му— гомозигот уу. 
Соответственно обозначим их частоты: Р., Ра, Рао, Роо. Частоты 
аллелей и”, и, уу обозначим р, 4, г. Составим таблицу: 


фенотипы ‚ красный абрикосовый светлый ° белый 
— —— —— 

генотипы · мМ или ур Гага ийи им 

частоты генотипов р?2 рӯ Фрг Ф 24 р 
ОНА —— --- --- 

частоты фенотипов Р, Раа Род Род 
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Из этой таблицы следует, что оценками частот аллелей являются: 


ра 1 Перг 
р=1- ГР. а (+574) 1-- "- (по га) 1 Р,. 


2 
Дисперсии этих оценок, полученные методом максимального прав- 


доподобия, следующие: 

у= 1 – (4 + "7 (АМ), 

у, = 91 5 + г АМ + г) + 99 +5) П -(4 + РА Ама + гу, 

у, = 1 - (9+5 Ма + 2 + "4+0 - 4+7) 1/4М(4 ы") 
рение проблемы оценки частот алле- 
лей при доминировании. Имеются ситуации, не упомянутые в в 
разделе. Они сложны и не описываются в рамках ри 
здесь относительно простых методов. Во всех этих случаях оп 
мальным является метод максимального правдоподобия. Мы его не 
проводим потому, что в общем случае необходима а 
реализация метода — решение системы нелинейных уравнений. 
ғтальное изложение идеи метода максимального правдоподобия дано 
Ч Ли [1978]. Следует иметь в виду, что наиболее точные оценки дает 
именно он; все остальные следует рассматривать в качестве прибли- 
жения для последующих итераций метода максимального правдопо- 


добия. 


На этом мы закончим рассмот 


Оценка генотипов особей по данным 06 их потомках 


Методы оценки частот генотипов и аллелей, данные в м 
разделе, экспериментально достаточно просты, поскольку пр да 
туация: фенотипы особей выявляются и причем а ща 
ном разделе мы рассмотрим ситуации, когда фенотипы осо е Кай г: 
редственно определить нельзя, но могут быть выявлены генотип а 
потомков. Обсудим случай, когда неизвестны генотипы обоих роди Я 
телей, и случай, когда неизвестен генотип только одного из роди 
телей. 

Неизвестны генотипы обоих родителей. Подобные ситуации 
не редкость. Например, при определении кариотипа у двукрылых по 
инверсиям мы можем определить генотипы особей лишь у личинок, и 
поэтому анализ потомков — единственный путь оценки генотипов 
родителей. Расчеты показывают, что наиболее Ен 
руемыми по потомкам являются гетерозиготные родители, осо х 
если оба они одинакового генотипа. В последнем случае, как указы 
вают следующие далее расчеты, вероятность ошибочного Захлючепия 
о генотипах родителей р = 2(3/4)4 – (1/2 , где — число поил 
зированных потомков. В частности, для того чтобы доля Оши ҰЙЫ 
заключений о генотипах каждой пары родителей не превышала с. 
необходимо исследовать в каждой семье не менее 13 потомков: ж 
= 2(3/4)3 - (1/2)!3 < 0,05, и надо исследовать не менее 13 потомков, 
чтобы эта доля не превышала 1Х:р = 2(3/4)9 -(/2)” < 0,01. 

Рассмотрим этот вопрос подробнее для случая двух аллелей (или 
двух групп аллелей) Аиа. Пусть в семье исследовано к потомков. 
Всего на основе анализа потомков различимы только шесть типов 
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скрециваний (генотипов родителей): 
Аа х Аа, АА х Аа, Аах аа, АА ХАА, аа хаа, АА хаа. 


Фактические частоты их обозначим соответственно 0}, 0», Оз, ОД, 
05, 06. 

Так как родительские пары генетически идентифицируются на ос- 
нове анализа ограниченного числа потомков, то некоторая доля се- 
мей будет неверно классифицирована, а именно гетерозиготные ро- 
дители могут классифицироваться как гомозиготные. Например, в 
том случае, когда один из родителей гомозиготный, а другой гетеро- 
зиготный, скрещивания АА х Аа иногда будут ошибочно классифици- 
роваться как скрещивания типа АА х АА или АА х аа. Это происходит 
в тех случаях, когда гетерозиготный родитель Аа передает всем сво- 
им К потомкам либо только аллель А, либо только аллель а. Вероят- 
ность передачи всем К потомкам только аллеля А равна (1/2)*, вероят- 
ность передачи только аллеля а также равна (1/2)*. Поэтому вероят- 
ность ошибочного заключения, а значит, ожидаемая доля ошибочно 
классифицируемых скрешиваний для рассматриваемого типа АА х Аа 
равна (1/2)*-1. В то же время и семьи Аа х Аа могут быть ошибочно 
отнесены к типу АА х Аа; вероятность этого (3/4)* — (1/2) — (1/4). 
Последнее произойдет, если среди К потомков будут особи только 
двух генотипов: АА и Аа. Конечно, все рассуждения этого и следую- 
щего пунктов справедливы лишь в случае, когда жизнеспособность 
потомков разного генотипа одинакова и когда нет гаметического 
драйва, т.е. смещения в расщеплении. 

В табл. 5 представлены вероятности неверной классификации се- 
мей по генотипам потомства |ВаградШа, Мауеша, 1988]. Можно сказать, 
что максимальна вероятность неверной классификации гетерозигот 
АахАа; она равна 2(3/4)-(1/2)% “Мы не рассматриваем здесь случай 
нескольких аллелей, но укажем, что и в этом случае максимально не- 
верна классификация тех пар родителей, генотипы которых — одина- 
ковые гетерозиготы. Данные этой таблицы можно использовать для 
получения несмещенных оценок частоты каждого из указанных шесть 
типов семей 0}, О›,..., Об. [ВафадШа, Мауепа, 1988]: 


0) = № ДМО - о), Ог = Ма - 0501/2) — 0,(1/4) ММ, 


0. = (№ – № Озоз) Ма 0), 05 = 175 – О (И) м--о(и) МДМ, 2 
Оз = (№ – М Ооз) ЛМ(1- о2, О6= 1 - (01 + О Оз+ О4+ 05), 

где М = М, + № +...+№ — общее число изученных семей; 
оц = 2(3/ 4)*- (1/2)5 мо = (1/2) -1; аз = (3/4)-- (1/2) (114). 


По частотам семей можно оценить также частоту аллеля в выборке 
родительских генотипов, а именно частота аллеля А равна: 


1 3 1 1 
рх201%:02%:03% 04+ 206. 


Неизвестен генотип одного родителя. Такие ситуации также 
нередки. Например, у голосеменных растений (в частности, хвойных) 
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Таблица 5 


вероятности правильной (на диагонали таблицы в рамке) и неверной 
классификации (вне диагонали) родительских пар по генотипам к потомков 


Классифи- 
кация се- 
мей по 
генотипам 
потомков 


Фактические семьи 


Аа Х Аа 


3 к 
|1-2(-9 +( 
| 4 


генотип дерева по молекулярно-генетическим маркерам (например, 
по полиморфным ферментам) определяют на основе электрофорети- 
ческого изучения макрогаметофитов, являющихся гаплоидами. Ана- 
логичны ситуации, в которых генотип особей устанавливается по ре- 
зультатам из скрещивания с особями определенной тестерной линии. 
Во всех этих случаях ситуация идентична: если у разных потомков 
суммарно выявлены два аллеля, полученных от тестируемого роди- 
теля, то это означает, что этот родитель гетерозиготен. Если у всех 
потомков присутствует один и тот же аллель, то этот родитель счи- 
тается гомозиготным по этому аллелю. Ясно, что в этом случае 
возможна ошибка: тестируемый родитель может быть гетерозигот- 
ным. Пусть, например, его генотип Е$ и исследовано только два его 
потомка. В этом случае не исключено, что оба они несут или только 
аллели Е, или только аллели $, полученные от этого родителя. Ве- 
роятность этого равна 1/2. 

Рассмотрим задачу определения генотипа родителя в общей фор- 
ме. Пусть исследовано К потомков в семье, где известен генотип толь- 
ко одного из родителей. Тогда вероятность того, что все К потомков 
будут иметь один и тот же его аллель (при условии, что он гетерози- 
готен), равна (1/2). Такова же вероятность того, что все потомки 
унаследуют его альтернативный аллель. Следовательно, суммарная 
вероятность ошибочного заключения, т.е. определения гетерозигот- 
ного родителя как гомозиготного, равна (1/2) + (1/2) = (12) 1. В 
табл. 6 указано число потомков на семью, необходимое для надежно- 
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Таблица 6 


Необходимое число 


потомков ДЛЯ оп еделения генотипов одителей 


Предваритель- 
ные сведения 
ородителях 


Вероятность правильного определения, Р 


0,50 0,80 0,90 0,95 0,99 


0,999 


Генотипы 6 8 11 
обоих родителей 
неизвестны 


Генотип одного 2 4 5 
из родителей ) 
известен 


1 


Таблица 7 


кодах число потомков на семью для правильного определения 
типов родителей во всех исследованных семьях с вероятностью 0,90 


Предварительные Число семей, 5 
сведения не ом подо ААА ДА ә ыы ж ные 
о родителях 5 10 25 50 100 1000 


Генотипы обоих 
родителей 


НЫ 16 19 22 24 27 35 
Генотип одного 

из родителей 

Нар 7 8 9 10 11 15 


го (с вероятностью Р) суждения о генотипе родителя. Для сравнения 
здесь же приведены данные и для случая, когда оба родителя заранее 
не определены генетически. 

Следует отметить, что данная таблица указывает вероятность пра- 
вильного определения генотипа родительских особей для одной 
семьи. Если семья не одна, а 5, то вероятность правильного опреде- 
ления генотипов родителей во всех $ семьях равна Р.В табл. 7 при- 
ведено число потомков на семью, необходимое для 30% -ной надеж- 
ности определения генотипов родителей во всех 5 семьях при 


различном количестве семей. 


Таким образом, мь видим, что для надежной идентификации ге- 


нотипов родителей (особенно если неизвестны оба родителя) тре- 
буется исследовать большое количество потомков 


Рассмотрим теперь задачу оценки частот генотипов и аллелей в 


группе выявленных родителей. Сформулируем ее в общем виде [Мог- 
1$, ра, 19781. Пусть в популяции есть т аллелей (или типов хромо- 
сом) А), А»,..., А. Из популяции взята выборка в М особей, генотип 
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ли на основе гамет (например, путем 
ей), полученных от нее К потомками. 
типов и дисперсий оценок 


каждой из которых определя 
скрещивания с тестерной лини 5 
Каковы несмещенные оценки частот ген 


частот генов. . ие 
Й ассифицированны у 
Обозначим М; — ЧИСЛО особей, кл ф 


нове уч е отипо потомков, общую численность их 
из ения ген в их 
о чим == ; ; М;; Вероятность ТОГО, что гетер Иг а 
4 . у 


=2 161 и одном 
бочно классифицируется как гомозигота, равна А = 2 ). При од 


(к=1) имеем А = 1, т.е. гетерозиготы не ИДТИ» 
Бар Е гетерозигота неправильно классифицируется На г и 
дайақ с вероятностью А = 0,5; при Ё = 3 Бон ме ыы. а 
сификации гетерозиготы равна х = 0,25 и А пао 
лить несмещенные оценки частот различных г : 


гетерозигот А; Ау: 
Ру=Му ЛА - ХМ, ЕЛ 


гомозигот АД;: 
25 М; _1) Ры; 
у 72 >, 3 


гот, а 
Следовательно, сначала определяют Е а ао 
ты гомозигот. орм 
м на их основе и часто т 
Еле УР. = 970 сумма несмешенных оценок всех гетерозиго 
шт 
имеющих аллель А;. 
В отличие от частот генотипов оц 
ются несмещенными даже при опред 
ностям: 


енки частот аллелей здесь явля- 
елении их по исходным числен- 


1 
р = Ма > М; |/ М. 
рН 
и рас- 
Очевидно, что оценка частоты аллеля будет та же самая, еслир 
считать ее по несмещенным оценкам гетерозигот: 


1 В 
В=Р: + У Ру: 

2 р 
адок, подобных тем, что были даны при доказа- 
стоты аллеля в случайной выборке, 
ля в рассматриваемом случае: 


Не приводя выкл 
тельстве дисперсии оценки ча 
укажем дисперсию частоты алле 


р:(1- 21+ 6 +1 Е) 
И И 
где Е, = (Ри — РР) Пра - 
родителя. Эта формула тождественна фо 
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рек =2 Е число потомков на 
рмуле для случайной выбор- 


ки только в том случае, когда А = 0, т.е. когда число потомков ве- 
лико. 


Очевидно, что при большом числе потомков генотипы родителей 
определяются точно. Однако число потомков, которое надо для это- 
го изучить (и = ЕМ), очень велико. Действительно, как видно из табл. 7, 
для "точного" определения генотипа одного из родителей в 1000 се- 
мей потребуется исследовать 15 тыс. потомков! Дадим формулу для 
оценки оптимального объема работы. 

Пусть фиксирован объем эксперимента п = КЛ т.е. суммарное число 
исследованных потомков. Каким должно быть число потомков К на 
родителя (и соответственно число родителей М), чтобы дисперсия 
оценки частот аллелей У(р;) была минимальной? Ответ на этот вопрос 


легко получить, если в формулу для У(р;) заменить величину М на 
п/ К, т.е. 


:(1— р; 
Ү(р) Р, П +5; +А (1-5). 


Определяющей здесь является величина о = & [1 + Е; + 2-0-0 
(1-Е;)]. Ее анализ показывает, что только при сильном избытке гете- 
розигот в популяции (когда Ғ близки к крайней величине — 1) следует 
брать по нескольку потомков на особь. В остальных случаях один 
потомок (= 1) дает минимальную ошибку в определении частоты ал- 
леля при заданном объеме работы. Этот вывод кажется пародоксаль- 
ным, но повторим: он справедлив лишь в том случае, когда мы огра- 
ничиваемся только оценкой частоты аллеля в выборке родителей. 

Если же задачей является определение оптимального числа по- 
томков (при фиксированном п = ЕУ), при котором минимальна диспер- 
сия. скажем доли гетерозигот, то это оптимальное число будет боль- 
ше 1. Действительно, пусть Р- несмещенная оценка частоты гетеро- 
зиготы (или сумма нескольких или всех гетерозигот). Тогда, как вид- 
но из данной выше формулы, ее дисперсия 


І(Р 
од) 


к 

При данном Р определяюцей величиной является (2-Р ) » ее 
минимум — минимум для Ү(Р). Отсюда легко подсчитать, что при 
0<Р<0,57 оптимальным является три потомка (Ес = 3), при 0,57<Р<0,76 
— четыре потомка (к = 4), при 0,76<Р<0,97 — пять потомков на семью 
(К-5). И в заключение напомним, что если требуется точно опреде- 
лить генотипы всех родителей, то требуемое число потомков на 
семью очень велико (см. табл. 7). 


Априорные оценки объема выборки 


Каков необходимый объем выборки ? Во многих популяционно- 
генетических исследованиях одномоментно взятые выборки содер- 
жат, как правило, 50—100 особей. Это обусловлено тем, что при том 
обилии выборок (десятки и сотни) и том числе одновременно регис- 

95 


трируемых индивидуальных характеристик (десятки моногенных и 
полигенных признаков), которые нередки в популяционных исследо- 
ваниях, 50—100 особей и не больше — это реальный, технически воз- 
можный объем разового камерального анализа. 

Но все же каков должен быть необходимый объем выборки, если 
ориентироваться не на технические трудности анализа большого 
числа особей, а на статистическую значимость полученных результа- 
тов. Знать ответ на этот вопрос очень важно. Действительно, если 
окажется, что для решения поставленной задачи следует изучить, 
скажем, не 100, а 1000 особей, то исследователь будет уже ориентиро- 
ваться не на стандартную однократную выборку, а, например, на дли- 
тельный сбор материала из данной группировки. 

Этот раздел мы посвятим некоторым вопросам априорной оценки 
численности выборок, ориентируясь на которые, можно хотя бы 
примерно представить себе, сколь значительными должны быть 
эксперименты или полевые наблюдения при проведении популяцион- 
ных исследований. Здесь мы рассмотрим только те вопросы, кото- 
рые связаны с выявлением фенотипов в выборках, оценкой их частот. 
В 55 2—4 этой главы и в гл. 4. будет кратко затронута проблема оцен- 
ки объема выборки в связи с рассматриваемыми там задачами. 

Обнаружение редких фенотипов. Пусть исследователя интере- 
сует, есть ли в данной групировке особи с определенным признаком. 
Какую выборку ему следует взять чтобы определить это ? Конечно, 
если частота таких особей в исследуемой группировке значительна, 

то уже в небольшой по объему выборке хотя бы одна из таких особей 
будет присутствовать. Однако если доля искомых особей мала, то для 
обнаружения хотя бы одной из них потребуются выборки, числен- 
ность которых может быть очень велика. Таким образом, минималь- 
ный объем выборок определяется неизвестным нам параметром — 
частотой особей в данной группировке, имеющих искомый признак. 
Обычно, когда мы только начинаем исследование, эта частота неиз- 
вестна или известна лишь приблизительно. Позтому в реальной ситуа- 
ции следует опираться на его оценку, полученную по другим груп- 
пировкам, если только у нас нет иной информации. 

Выясним, как зависит возможность обнаружения фенотипа от объе- 
ма выборки. Пусть генеральное значение частоты особей данного 
фенотипа в исследуемой группировке равно т. В силу вероятностных 
закономерностей нет никаких гарантий, что ‘такие особи попадут 
даже в относительно большую по численности выборку. Определен- 
ной здесь может быть только вероятность их наличия в выборке. 
Поэтому, сторого говоря, задача формулируется следующим образом: 
каков должен быть объем выборки М, чтобы с вероятностью Рвэту 
выборку попала хотя бы одна особь с признаком, генеральная часто- 
та которого т. 

С вероятностных позиций эта задача решается элементарно. Дейст- 
вительно, (1-т) — это вероятность того, что случайно выбранная 
особь не имеет искомого признака. Поэтому вероятность того, что 
все № случайно взятых особей (вот он — принцип случайности 
выборки) не имеют этого признака, равна (1 – т). Следовательно, 
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Таблица 8 


Объем в 
ви М, в которой с вероятностью Р хотя бы одна особь имеет 
‚ распространенный в исследуемой группировке с частотой л 


Веро- 
ятность, 


Генеральная частота признака, п 


0,95 

25 - 5 29 59 299 3.103 3.104 3.105 

1 р. В 44 90 495 4.6.103 46-10% 4,61. 105 
66 135 688 69.103 691.10 691. 105 


в 
Бри Р того, что в выборке объема № есть хотя бы одна 
в нас особь, равна 1-(1-т)У. Имеем 1-Р-(1-туУ 
а последнее равенство, легко определим объем 
А торой признак, имеющий ген 
и ; еральную частоту т, встре- 
чается хотя бы у одной особи с заданной вероятностью Р: а е. 


м 80-Р). 
| Іп(1-л) 


Ес 
о на сез нецелым числом, то следует округлить его в 
. Для различных значений 
2. частоты признака тре- 
выборок (при заданной в 
ероятностиР) 
табл. 8. Из таблицы сле, а 
. дует, что требуемый объем в 
А ыборки возра 
не только с редкостью фено реді 
типа (вправо по табли 
чением Р. Это: означает а 
я ‚ что если мы хотим с б " 
Б ольшей "надежностью" 
ШӨ обнаружение нужной редкой особи, то мы должны 
2. қ к просеиванию" выборки большей численности. Напри 
) целью исследования являет я е 
ся выявление редкого заб 
ния, частота которого п г. 
редполагается 10-3, то с 95%-ной 
2-2 я -ной увереннос- 
а а осе будет обнаружено в выборке ссе 3000 
-ного успеха исследования 
следует запл - 
арии аниро 
5. 2... работу--исследовать около 5 са 
с ной особи с искомым п 
Иди ризнаком обнаруже- 
и 2. - или редкое невезение, вероятность его (1 Бри 
{ го, меньшая, чем предполаг 
Я алось, частота п 
и р изнака. 
а случае взятой выборки недостаточно. Например, я и 
частота заболевания не 10-3, а 10—4, то даже для 95%-ного 
с Я 
У та Ви следовало брать выборку объема около 30 тыс. особей 
о д 5-1 обосновывает существующие объемы выборок 
- ей), обычные в популяционн 
с о-генетических ис 
ниях. Действительно, в ген сходен 
, етике популяций полимо 
а рфными нередко 
СИ пи 2. в которых частота альтернативных аллелей не бен 
И да Қ снага . как раз следует, что в этом случае число исследован- 
ыть не менее 90 (для Р = 0,99 
ар = 0,99) , т.е. особей — около 50. 
ак как таблица показывает объем выборки, необходимый для появле- 


‚а а ь Д. 


оценки частоты иметь их больше, минимальный объем выборки 
50—100 особей. Однако следует иметь в виду, что "обоснование" объе- 
мов выборки, даваемое табл. 8, лишь частичное. Эта таблица указывает 
минимальное число особей, среди которых встретится хотя бы одна с 
искомым редким признаком. Для надежного суждения о частоте 
нужна не одна такая особь в выборке, а несколько. Поэтому объемы 
выборки, необходимые для более или менее точной оценки частот, 
значительны (см. табл. 2). 

Укажем на одну довольно распространенную ошибку, встречаю- 
щуюся при популяционном изучении редких вариантов признака 
(редких фенотипов, мутаций, наследственных болезней, редких 
генотипических комбинаций): нередко исследователи прекращают 
сбор материалов сразу после обнаружения особи, имеющей искомый 
редкий признак. Это приводит к завышению частоты встречаемости 
данного признака. Такое происходит потому, что в этом случае вы- 
борка не является полностью случайной: ее объем зависит от того, 
как скоро встретится очередной редкий фенотип. При таком сборе 
материала мы как бы занижаем объем выраборки по отношению к 
количеству встреченных особей редкого фенотипа, поэтому и завы- 
шается его частота, и это завышение тем значительнее, чем меньше 
обнаружено таких особей. Максимальное завышение будет в том слу- 
чае, когда обнаружена только одна редкая особь (на которой обсле- 
дование закончено). 

Выявление основного разнообразия. Из изложенного мы ясно 
можем себе представить, какого размера нужны выборки, чтобы они 
содержали особи одного определенного (редкого) фенотипа. Но при 
популяционном обследовании чаще возникает проблема выявления 
полного разнообразия популяции, т.е. всех (а не одного какого-то) 
фенотипов, кроме, быть может, редко встречающихся. Рассмотрим эту 
задачу с вероятностных позиций и в нескольких вариантах. 

Обсудим вначале первый вариант. Пусть в данной группировке 
предполагается наличие т вариаций признака (морф) с известными 
генеральными частотами тт, Т2, ..., т, Пусть М — неизвестный пока 
объем планируемой выборки из этой группировки. Какова вероят- 
ность того, что в этой выборке (объема №) будут обнаружены все т 
морф? Для удобства записи получаемых формул обозначим: 4; = 
= (1 — п)^ — вероятность отсутствия в этой выборке морфы 1; ду = 
=(1— п; — пр -- вероятность отсутствия в ней одновременно двух 
морф (іи /); фа = (1 — п: 7)-- тр” — вероятность отсутствия сразу 

трех морф (і, /, к) и т.д. Тогда вероятность отсутствия хотя бы одной 
из тморфіФеллер, 1964] 
Уа + 2 Чик - 


т>і> 2 т>!>>К21 


Фум Вох 
т>і>і|>Е>і>1 


0-5а- 
ігі 


Соответственно вероятность присутствия В выборке всех т морф 
Р-1-0 
Полученная формула дает ответ на поставленный вопрос. Бе 


можно использовать, например, для оценки требуемого обьема 
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Таблица9 


Обьем выбо 
рки М, в которой с вероятностью не меньшей чем $ 


прису ствуют все морфь р ГОТ р у уп 
І І, частоты кото 
І ых висслед емой гр пировкене 


Вероятность в 
Э Вероятность, Р. 


0,95 


0,50 ” 6 8 

20 Е и 0,06 92 

0% И 10 14 0,05 117 18 199 

920 2 В 22 0,04 152 192 249 

о ыр с 39 0,03 212 265 зи 

о 2» Е 88 0,02 341 422 536 

о 2 Ды Н 0,01 754 916 1146 

бей Ва г 2 0,009 850 1030 1285 
131 0.008 972 1174 1462 


выборки, с 

егі го 5-5 все эти морфы, при известных их генеральных 

наще А ша и следует по этим частотам вычислить все вероят 
А —ОиР, подбирая такое № | 

ного уровня вероятности. шалына 


ляи 
Д ллюстрации рассмотрим следующий условный пример. Пусть 


предполагаемые генера 
льные частоты 
про. трех морф в группировке бу- 


т = 0,88, тә = 0, 07, тз = 0, 05 
К 
акого объема должна быть выборка, чтобы с вероятностью 0,95(т.е 


с 95% -ной 
22. омеаи, в нее попали особи всех трех фенотипов, в 
самого редкого? Согласно данным выше формулам: | 


Уа-(1-0,88) +(1- 0,07) + (1-0,05)М 
Уау-(1-0,95)У +(1-0,93)М + (1-0,12)М 
9=>.4:-У,4- 


Расчеты показывают, чт 
‚ что О = 0,52 при М = 
М = 63. , ри У-62и О=0 
ра Ж ига случайная выборка объема ооа Ы/А 
тью 95% содержит все три указанные морфы с надеж- 


Рассмот Й 
рим теперь второй вариант: какова будет искомая веро- 


ятность, если частоты 
= ты морф неизв ? 
Ібгерогіз, 19801, что О < 6, естны? В этом случае показано 


У т-1 . 
где О-1- 4 и 1+1 а М 2 
2 Ст-1(-1) (1- тоа) + та (п 0 


сі = 
т-1 число сочетаний из І 
т-ізле г; 
| не мента по г; п„„— минимальная из 
генеральных частот морф). Гаким образом, зная минимально возмож- 


ную част 
ВУ стоту, можно получить нижнюю оценку вероятности Р >Р,где 


-1- 
О. подбирая такое значение М, при котором Р будет 
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ю вероятности, мы получим 
в которой с вероятностью не 
в груп- 


приблизительно равна а үре 
ответ на вопрос: каков объем выбор 2. а 
меньшей чем Р присутствуют все т | 
пировке не меньше Тіп: 
Рассмотрим пример, 
в данной групировке ‚име 
тота наиболее редкой мо 
таш = 0,05, поэтому 


М М 
о -1-21(1- ка) + тіп 


но, что 
подобный предыдущему. Пусть ЕЕ 2 
ются три морфы. Предположитель а 
рфы не менее 0.05. В этом случае т = >, 


мол 
24-11 + [(1- 2 ты родена 


й 0,95. Подбирая значение №, 
айық Е рае сы Следовательно, в 2. 
ПИ роса 2 ностью не меньшей чем 0,95 ее пи 
е Е частоты каждой из них не не о 
те предыдущим вариантом, ік) уздао заан 
21 колько бол 4 
са а и данном случае Ни 
Са, 4. минимальные частоты морф, а не то 
Си | как в предыдущем случае. КЕР 
значения, отрим третий вариант задачи, к балады 
.. но и их число, что всегда и бывает, р 
о пи Е фенотипов. Тогда остается, в 52. 
пировке есть шл ви Е 
ее да ее обозначается как таа 
а ачение М, при котором Р равна и Ұр е 
ео отвечаем на вопрос: каков 2. и ЕР Е 
о еньшей чем Р, прис с 
С Е ано? групировке не тн а я — 
ры 1борок при зад 
Е 5. а жекен дай например, что КЕН 
а ью 95% выявить все фенотипы, частоты Бя хан 
15 ио выборка не менее чем в 117 ои Уи 
2. УА е чем те выборки (№ = 6З и М = 72), кот а 522 
Зали пе! вых вариантов. Это связано с тем, НТ ай 2м 
СА ыы никакой предварительной ИНТЕР азады 
ес й различных фенотипов, ни об их частотах. 
ок 
а. я вопросом: каков о. 
ие нотипы, а аллели. 
о ИИА при изучении о 
ге, оо ов В том случае, когда по паннолар аа 
сне қанды  Зыполнены соотношения Харди-Вайн т АҚ 
а: бъема МУ равносильна выборке аллелей Е 
ара % ганизмов). Поэтому В табл. 9 в графе. Сив 
си АА ие значениям Ри Пил, ДОЛЖНО быть В СА 
22... чтобы выявить все аллели с частотами р 
5. о взять выборку объема 76. 222 
а 222 и есть значительное отклонение о 
исследу 
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шений Харди -Вайнберга в сторону дефицита гетерозигот, то необхо- 
димый объем выборки особей будет промежуточным между №2 и М. 
Поэтому в случае значительного, но неизвестного по величине дефи- 
цита гетерозигот лучше "для страховки" ориентироваться на вели- 
чину №. Напротив, в случае избытка (эксцесса) гетерозигот необхо- 
димые объемы выборок меньше чем М/2. Насколько меньше — неиз- 
вестно. Поэтому при неизвестной величине эксцесса гетерозигот 
опять-таки для страховки следует ориентироваться на оценку объема 
выборки как и в ситуации, когда выполнены соотношения Хар- 
ди—Вайнберга, т.е. №/2. 

Подводя итоги обсуждению методов оценки частей аллелей и 
генотипов в популяциях, следует отметить, что во многих задачах 
можно ограничиваться фенотипическим уровнем описания популя- 
ционного состава. Но как только мы касаемся вопросов динамики и 
прогнозирования фенотипической структуры, оценки генетических 
параметров необходимы. Этот параграф и был посвящен в основном 
методам оценки частот аллелей. Здесь много сложностей. Иногда 
частоты аллелей определяются просто, как, например, в случае кодо- 
минантных аллелей. При доминировании частоты аллелей уже так 
просто не определить и для их оценки приходится прибегать к 
определенным статистическим процедурам. 

Бывают еще более затруднительные ситуации. Например, опреде- 
ление частот генов вирулентности у фитопатогенных организмов (в 
частности, грибов) основано на теории "ген на ген" для системы 
хозяин—паразит. Генные частоты в популяции возбудителя опреде- 
ляются по восприимчивости к заболеванию (вызываемому набором 
клонов, выделенных из данной популяции) у различных линий расте- 
ния-хозяина, каждая из которых имеет один из генов устойчивости 
Къ, Ко... Но при этом требуется ряд ограничений. В частности, этот 
метод годится только для гаплоидов; для диплоидов он подходит 
только при полном доминировании (или, напротив, полной рецес- 
сивности) аллелей вирулентности по отношению к альтернативному 
аллелю авирулентности. Кроме того, при расчете частот фенотипов, 
имеющих более одного гена вирулентности, предполагается свобод- 
ное комбинирование генов, что возможно только при отсутствии 
неаллельных взаимодействий и отбора. Отклонения от этих гипотез 
могут исказить оценки частот. Возможны и другие причины смеще- 
ния (Дьяков, Супрун, 1984]. 

Не всегда доступен даже по-индивидуальный анализ, если это 
связано или с невозможностью выделить отдельных особей, или с 
трудоемкостью методики определения генотипа, не позволяющей 
индивидуально тестировать много особей. Например, предваритель- 
ный анализ индивидуальных растений однопарного горошка ҮУісіа 
упіјива указал на значительный внутривидовой генетический полимо- 
рфизм по ряду фракций гистона Н1 [Бердников и др., 1984]. Однако 
провести широкое популяционное исследование, связанное с выделе- 
нием гистоновых белков у нескольких тысяч растений, технически 

невозможно. В данном случае реальным оказался анализ фракций не 
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у каждого растения в выборке, а анализ гистона Н1, выделенного из 


всей суммарной биомассы данной выборки (по одному листу со всех 


Вопрос 
о полимо 
растений). Полученную электрофореграмму затем сканировали на тодами. Для этого Е ноет локуса надо решать 
денситометре, а по соотношению площадей под кривой приближенно личия выборочной Е жде всего следует пров статистическими ме- 
оценивали частоты соответствующих аллельных вариантов в данной здесь лучше а частоты рот ан значимость от 

2_ и о 7 
выборке. (Х -критерий, Мнения реален Вероятно Жы осот 

ий, ф обычным 
, и тестами 


пос 
кольку при малых часто 


‹ 2. ИЗМЕНЧИВОСТЬ КАЧЕСТВЕННЫХ ПРИЗНАКОВ реда был рекомендован 2. теория которого дана 
ачим М-- ценки в $3 гл. 

В популяционных исследованиях не ограничиваются оценками енное число 2. чедо Бре тельных границ в 7 Ш 

частот фенотипов. Они являются лишь исходными параметрами, на наиболее частого ал. ных особей (диплоидн ых аллелей, т.е. удво- 

основе которых определяются сводные характеристики изменчивос- мономорфности. леля; р = /М - его частот ых); п — численность 

ти выборок (а значит, и представляемых ими группировок). Основ- Вычислимвеличину У; то — заданный порог 

ными показателями изменчивости являются оценки гетерогенности и Е І-т, А 


взаимосвязей между признаками. этим вопросам и посвящен данный 


параграф. 


по М-п+ Г 


Уро 
ровень значимости, соответств 


ления 
Доля полиморфных локусов со степеням ующий в 
и сво еличине Е 
боды у = для Е-распреде- 


вероятност 2 
ью -2(М- 
полиморфизма данног (М-п + иу; = 2й, назовем 


В эволюционной генетике в качестве меры генетической гетероген” ло. Напомним ч 
ности популяций часто рассматривают долю (или процент) поли- То из а если Е меньше табличн 
морфных локусов среди изученных. Этот показатель получил широ- Свободы 922 таблиц находят 1 - о ых значений (см. табл. ТУ 
кое распространение в работах по биохимической генетике попу- 1=2пиу) =2 (М-п + 1) по величине 1/Е со Е. ‚ У), 
ляций. Статистическая процедура обычно такова. описывают опреде- о, = 0,05 ‚ откуда и определяют пенями 
ленное число особей изучаемой группировки (популяции или вида) Н о. Если 
по нескольким десяткам энзимных локусов, считая локус МОНО“ данного 
морфным, если ДЛЯ него частота наиболее распространенного аллее телени порога по локус счи 
ля превышает некий заданный "порог", который мы назовем порогом . недос х случаях делаем выво таем значимо полимо 
мономорфности; обозначим его Т. Если жезта частота меньше То то таточно для Зидан о том, что имеющегося а ным. В ос- 
локус считают полиморфным ДЛЯ данной группировки. В качестве п оро ости с объема данных 
"порога мономорфности" часто берут = 0.95 или То 0.99. Если. ге мономорфности). С рфности данного локуса 
среди 1, исследованных локусов обнаружено Е полиморфных, то в. МАР уса (при выбранном 
качестве меры полиморфности популяции или вида рассматриваю’ а, 
величину К/Г (доля полиморфных локусов), или (в х) — 100 К/1.. у нить величину Рс таб Е 
Указанная мера достаточно информативна, особенно для межвидо выбранному уровню зна личным значением Е, л 1. Достаточно 
вых сравнений. Однако У нее есть некоторые статистические особен; Пример. Пусть в в о с. ‚ соответствующим 
ности, которые не всегда учитывают. А именно, когда устанавливаю) етыре авер неси орке, со 
"порог" между мономорфным и полиморфным состояниями локусаМономорфизм это или 06200 
то подразумевают, что ОН характеризует встречаемость наиболее "+ 255 + Е5 = 696; полиморфизм? Имеем: М- 2 
частого аллеля в генеральной совокупности. Иными словами, с порозариантов этого и = 696/700 = 0,9943. а · 350 = 700; 
говым значением То должна сопоставляться генеральная частоти А. Пусть порог ранни М мотрим несколько 
рфности по. 0,98. Тогда 


аллеля п. а не его въборочная оценка Р, поскольку последняя имеет 1-09 
статистическую (вы 1-0,98 ра 0062 г. 
морфным или мон 700 — 696 4+ 1“ 284 


борочную) погрешность. Относить локус к ПОЛИ - 

оморфным на основе только арифметическог 0,98 

сравнения р С Ло, строго говоря, статистически неправомочно. Пр 1 = 2(700 - 696 + 1) =1 

небольших размерах выборки так можно прийти к неверным закл Как следует изт 6 0, у›=2. 696 = 1392) 

чениям. ля порога бана л. ІУ, значение р 
орфен. рфности пу = 


держащей 350 
особей, 
$, а остальные — в КЧ 


3 
( » ) 
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о лок 
уса при выбранном пороге 


В. Изменим порог мономорфности: Ло = 0,99. Имеем 


1-099 66 |4 
= 099 "700 - 696 + 1 


у, = 10, у2 = 1392). а 
и і есь табл. ІУ нельзя воспользоваться для определе 

о при то = со величина Еу, 
больших значений ©, вспомним, что при У; о 
аспределена как х2 с у, степенями свободы (см. 8 2 гл. 1). ша 

т , 
Ру = 14,1, то из табл. П следует, что 020 > а> 0,10. еа пир 
жез , 
2 порога по = 0,99 вопрос о значимой полиморфности ны 
? 
ров локуса остается открытым до получения д 
ных данных. 

тельных эксперименталь _ , 

С. Еще увеличим порог мономорфности: п = 0,998. Тогд 


1-0998 66-02% 
ЕЕ 0998 `700-696+1 


у; = 10, У = 1392). р ие 
> „рстванетани со сказанным величину Еу, = 2,8 следу пре 
у = 10. 
поставить с характеристиками х2 — 00 я к 
на значим - я А 
т из табл. ІІ, эта величи қрай 
о можно заключить, что данный локус значимо полим рф 
= 0.998. 
выбранного порога Хо = О, РЧ 
ни метод оценки значимости полиморфности о о 
морфности важен в тех случаях, когда акцентируется в ИН 
ау локусах и сопоставлении разных видов с Ше ар Зи 
полиморфности или мономорфности по Бонер, Да 2. 5 са 
том, чтобы получить здесь статистически а декара 
елени иметь по каждому из видов достаточно с ША 
вателей интересует отв 
й. Но нередко исследо пра 
али насколько виды отличаются друг от Е н 
но полу 
ам. В частности, интерес 
всем изученным локус ак 
оценку ол полиморфных локусов среди уза 25% е РЯ 
этого генетически пр 
тистическая сложность е 
Корени в такого рода исследованиях виды нередко МЕ. 
фекер числом особей, поскольку межвидовые редици син 
вило, значительно превышают внутривидовые в қалын қызара 22 
числу локусов ІШурхал, 1989]. Непосредственно воспол ы 
ыдушими рекомендациями здесь чаше всего будет нев 2550 
я и небольших объемах выборок большинство локусов н 2 
и к значимо мономорфным или к значимо а 2” за 
предлагаем здесь иной путь, а именно для каждого я и. 
ной величине Е следует определить точное о в а 5 
мера величина с, к вал 
1). Для данного выше при ед: 
22. полиморфизма, находится в О т” пред ЕА 
0001 < в< 0,01 для порога мономорфности Ло = 2 ; в и. 
для к. = 0.99 и 0,975 < о < 0,99 для 70 = 0,998. Чтобы Е даа 
тт » П 
вероятность полиморфизма точно, следует воспольз 
четами, указанными в $ 2 гл. 1. 
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Пусть для всех изученных 1, локусов определены вероятности по- 


лиморфизма (при выбранном пороге по); обозначим их а, 0р,..., од. В 
качестве оценки доли полиморфных локусов можно взять: 


ЕРЕН | 
4- (ол + 00 +...+ощ.), 


статистическая ошибка которого обычна: 
55 = М Ул И. У 


где У, — дисперсия величин а (см. гл. 4, $1). 


Сопоставим указанный подход со стандартным, который приме- 
няется следующим образом. Для каждого локуса вычисляют выбо- 
рочную оценку частоты аллеля р = я/М№ (где М — общее число аллелей, 
ап — численность частого аллеля). Если р > то, то локус считают мо- 
номорфным; если жер < то, то его считают полиморфным. Если из Г, 
локусов К отнесено таким образом к полиморфным, то долю поли- 
морфных локусов определяют как &//.. Статистическое неудобство 
здесь заключается в том, что величина К скачкообразно зависит от 
объема выборки. Если к небольшой выборке добавится особь с редким 
аллелем по каким-то локусам, то К может сразу же уменьшиться на 1, 
а то и больше. К тому же нельзя оценить статистическую ошибку ве- 
личины (/Ё, так как она не подчиняется биномиальному распреде- 
лению. В противоположность этому величины о; плавно меняются 
при изменении объема выборки, и для оценки а можно получить ста- 
тистическую ошибку. И хотя 0, распределены не-нормально (более 
того, приближаются к О-образному с ростом объема выборок), но они 
заключены в пределах от 0 до 1 и потому имеют ошибку не большую, 


чем предельное биномиальное распределение, к которому они стре- 
мятся с увеличением М. 


Гетерозиготность 


Фактическая гетерозиготность. В вопросах динамики генети- 


ческого состава популяций важным параметром является гетерози- 
готность. Мутационный процесс, различные типы отбора, дрейф ге- 
нов, неслучайное скрещивание и другие факторы популяционной ди- 
намики нередко влияют на гетерозиготность популяций ІЛевонтин, 
1978; Ли, 1978]. Поэтому ее оценка необходима практически во всех 
популяционно-генетических исследованиях сегодняшнего дня. 

Вначале рассмотрим относительно простой вопрос оценки наб- 
людаемой (фактической) гетерозиготности, которая определяется как 
доля особей, гетерозиготных по изучаемому локусу. Обозначим №, 
число особей генотипа АА; по данному локусу в данной выборке 
объема М. Тогда фактическая гетерозиготность по этому локусу 

5- М/М, 


где №= У УМ, — 


общее количество всех гетерозигот в данной 
га) 
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ть, когда 
выборке. Можно определить также частную тетово оо на 
Мо — не все возможные гетерозиготы, а лишь некоторые и а 


х 
о может обозначать численности гетерозигот, содержащи 


аа ны особи 
только аллель А, (более того, в Мо могут быть объедине 


любых выбранных заранее генотипов, не только а. 6 
е подразделены на две г 
Поскольку особи в выборк иа 
сенные к мя неотнесенные), дисперсия оценки 8 стандартная 


номиальная: У(г) = 8(1- г)/м. кеп 
Доверительные интервалы для 8 могут быть получены тем 
м параграфе. 
тодами, что и в предыдуще За 
обеци гетерозиготности более надежны и более шашақ ылди 
если в исследование вовлечены несколько локусов. и На ша 
тическая гетерозиготность по 1-му локусу (Ї = 1,2,..., 1; Е 
исследованных локусов). Обозначим ү; дисперсии ны 5 
сов, вообще говоря, могут 
персии У для разных локусов, е 
отав по данным одной и той же выборки, аан ре. 
частично перекрывающихс 
ных выборок или лишь на К 
е здесь, что оценки гетер 
из одной выборки. Главно е 
сов были статистически независимы. В Та са 4 Е 
эти оценки основаны на данных одной и той же выборки, оли 
дела, означает требование отсутствия корреляции САД анан 
генов разных локусов, т.е. отсутствия так называемого нер 
і 1974]. 
сцеплению ІМеі, Коуспопиту, А РУ 
"если среднюю ' гетерозиготность по Г, локусам 2 определить 


среднее арифметическое значение, то 


Тогда при указанной выше статистической независимости диспер- 


сия средней гетерозиготности 
- 1 
У(8)--т>У- 
(8) 22 


тистическая ошибка (ошибка выбо- 
и ІКрамер, 1975; Ли, 1978] 


Из этих формул следует, что ста 
рочности) средней гетерозиготност 


81(1- а) 


1801-61), 


+... М, 


-І|- 


ас- 
Теоретическая гетерозиготность. В предыдушем пункте р 


- е- 

м ак ь. В популяционно-ген 
фактическая гетерозиготност 
ана те) пользуется иной показатель -- тео 


часто ис 
тических работах очень о И 
ретическая гетерозиготность. Она определяется следующ р 


42% + д 
3... 


ј из этого 
емая по соотношениям Харди -Вайнберга, равна ур. Исходя 
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теоретическую гетерозиготность определяют как ожидаемую по 
Харди-Вайнбергу долю гетерозигот ІМеі, 1975]. | 


т 
һ-1- Ур. 


ігі 


Можно привести ряд соображений, почему удобно использовать 
теоретическую гетерозиготность |Мсі, 1977; 1978; Меі, Коусһопаһшу, 
19741. Во-первых, в ряде случаев наблюдаемое распределение гено- 
типов близко к соотношениям Харди —Вайнберга, и тогда ћ практи- 
чески совпадает с фактической гетерозиготностью. Во-вторых, если 
выборки невелики, то частоты генотипов В них могут сильно от- 
клоняться от генеральных значений по чисто стохастическим при- 
чинам; в то же время частоты аллелей более устойчивы к эффектам 
выборочности. Поэтому теоретическая гетерозиготность имеет мень- 
шую статистическую ошибку, чем фактическая (но только при выпол- 
нении соотношений Харди-Вайнберга). В-третьих, если в популяции 
по изучаемому локусу идет отбор на стадиях развития, предшест- 
вующих наблюдению, то оцениваемая фактическая гетерозиготность 
не является мерой аллельной гетерогенности, ее оценка важна для 
проверки выводов теории нейтральности. И наконец, при наличии 
инбридинга в популяции доля гетерозигот также не является мерой 
аллельной гетерогенности популяции, а только мерой подразде- 
ленности ее в силу так называемого эффекта Валунда (оценка степени 
подразделенности популяции рассмотрены в 84). Следовательно, 
теоретическая гетерозиготность оценивает собственно не гетеро- 
зиготность как таковую, а уровень аллельного разнообразия. 

Перейдем теперь к методам оценки теоретической гетерозигот- 
ности. Отметим вначале, что, строго говоря, выборочная оценка гете- 
розиготности, полученная по данной выше формуле, имеет некото- 


рое смещение, заметное для выборок малого объема. Несмещенная 
оценка такова ІКеі, 1978]: 


2м (то 
= 1- ЕЕ 
28-1 Ур, 


і-1 


һ 


где № — число особей в выборке. Практически, однако, уже при уме- 
ренных обьемах выборки погрешность, как правило, мала, и тогда 
достаточно пользоваться предыдущей формулой. 


Статистическая ошибка оценка гетерозиготности следующая ІМеі, 
Коуспопавшу, 1974]. 


5в = МИ(А), 


2(п-1 т 
где У()= 20-1 зона 1)? (а 2) Хр +1), 
п і-і 
здесь п = 2М —численность аллелей. 
Так же как и при оценке фактической гетерозиготности, для теоре- 


тической гетерозиготности можно определить среднее значение по 
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нескольким локусам [М№і, 1978]: 
зет 
ћ < У |І» 
Ізі 


где ћ} № — значения гетерозиготности по отдельным локусам. 
Ее” 

Если частоты аллелей разных локусов статистически поз 

дисперсия оценки средней гетерозиготности определяется фор 


мулой 


Ув) = УМЕ, 
ігі 


где У, — дисперсии оценок (квадраты ошибок) по НВ три 
Ошибка выборочности средней гетерозиготности равна 5, = ). 
так называемая внутрилокусная ошибка, суть которой в ак ма си 
определяется только частотами аллелей в ранен (и о. 
борок). В ряде популяционных исследований, особенно 5 Б амата 
довых сравнениях, для суммарной оценки гетерозиготно У се 5 
кают не только полиморфные, но и мономорфные локусм. Да аве 
расчетах формально ничего не меняется: по-прежнему Дън 
число локусов; каждая из ди У, определяется по частотам вс аа 
наруженных аллелей (даже если имеются настолько а за 
что локус считается значимо мономорфным); если локус а па. 
солютно мономорфен (т.е. в выборке встречены Вр Дели 
одному аллелю), то полагаем р; = 0. Затем вычисляем пи (А). БЛЕМИ 
При оценке гетерозиготности по нескольким локусам а са 
иметь в виду, что значения һ, могут значительно меняться о и 2 
к локусу ІМшоп, Ріегсе, 1980]. Можно предположить, что нА 27 
локусы -- это случайная выборка из генома или опред а 
части (имеется в виду "случайная ПО отношению к ру: 21 
зиготности). В этом случае, помимо внутрилокусной ошибки,д Ше 
также учитываться статистическая ошибка, зява ни ный 
стью выборки локусов. Общая дисперсия оценки средней гетер 
ности определяется обычной формулой дисперсии: 


, 


А — 
и) = 0 = 0) К – 014 
1=1 


Внутрилокусная дисперсия У(й) входит составной - в ща 
Оставшаяся часть Уо(А) - У@®) объясняется межлокусной в г. 
бельностью гетерозиготности и потому называется раа 
дисперсией оценки һ. Она принципиально ала от е орна 
кусной. Если У(А) можно уменьшить, увеличивая выборку, Бы Дани 
значительно уменьшить межлокусную ошибку, надо исследо е 
би по 100 и более локусам, так как межлокусная дисперсия а в: 4 
ляется в основном числом изученных локусов Г. На сегодн сен 
день такой объем работ можно осуществить только в специаль 
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экспериментах, но не в широких популяционных исследованиях. 
Один из путей элиминации межлокусной ошибки — сравнение попу- 
ляции и видов по идентичному набору локусов. В этом случае доста- 
точно учитывать только внутрилокусную ошибку: 


зи МИ(Й) 


Оценка гетерозиготности по генотипам потомков. В $1 этой 
главы мы рассмотрели вопрос оценки частоты аллелей в группе осо- 
бей, генотипы которых не идентифицируются, но которые можно вы- 
явить по данным об их потомках. Были даны формулы для оценки 
частоты аллелей и определения оптимального количества потомков 
на семью. В частности, было установлено, что при умеренных вели- 
чинах Ғ оптимальное число потомков на семью, нужное для оценки 
частот аллелей, равно 1. Таким образом, чтобы оценить теоретичес- 


кую гетерозиготность й, мы должны просто использовать указанные в 
$1 оценки частот аллелей: 


по 
-1-Ор/ 
ігі 


где, как и раньше, р; = (№; +1/2 У, №;) /№ МуиМу- число особей, 
| іші 

классифицированных по их потомкам как гомозиготы АД, или гете- 

розиготы АД); Оценки р; несмещенные, однако дисперсия у них боль- 

ше, чем в случае непосредственного выявления генотипов, и зависит 


от числа потомков на семью (далее мы рассматриваем тот случай, 
когда неизвестны генотипы только одного из родителей). 


Перейдем теперь к оценке фактической гетерозиготности группы 
особей по данным о генотипах их потомков. Пусть 2! — доля особей в 


выборке, выявленных как гетерозиготные на основе семейного ана- 
лиза: 


‚1 
безу № 
1] 
где М — общее число особей, М; число особей, класси- 


фицированных как гетерозиготы АА, Если генотип каждой из М тес- 


тируемых особей определяется по К потомкам, то несмещенная оцен- 
ка фактической гетерозиготности 


8 = 8/1 -^), 
где А = 2-0-1). 
Тогда дисперсия оценки гетерозиготности |Мопв, Зреш, 1978]: 
1 
У) = #8 – 8, 


а статистическая ошибка 5, = ҮУ(е). 


Средняя гетерозиготность по нескольким локусам вычисляется 
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Таблица 10 
Число потомков на семью к. соответствующее пороговому значению в 
к 2 3 4 5 6 7 8 9 10 


0,86 0,918 0,952 0,972 0,984 0,991 


после этого обычным образом: 


ТЕ | 
в Кава) ИФ 


где 
1 
Ү(2) = ТАМЫ) + У(е2) +... + У(21)1 


дачи — оценки фактической гете- 


розиготности по данным о потомках — можно поставить такой воп- 
рос: "Каково оптимальное число исследуемых потомков при данном 
объеме эксперимента п = КМ? "Беря много родителей, но мало по- 
томков, мъ, хотя и полнее охватим въборкой популяцию, рискуем 
сильно завысить ошибку оценки за счет погрешности А. Если же брать 
мало родителей, но по многу потомков, то будет велика ошибка оцен- 
ки гетерозиготности в той группировке, из которой была взята вы- 
борка, за счет малого объема выборки М. Есть ли здесь компромисс? 

Из формулы для дисперсии оценки У(г) следует, что число потом- 
ков на особь, оптимизирующее оценку фактической гетерози- 
готности, определяется самой величиной 8. Чем выше гетерозигот- 
ность, тем большее число потомков должно приходиться на одного 
родителя. Табл. 10, полученная по этой формуле, показывает зави- 
симость числа потомков кот некоего порогового значения гетерози- 
готности 8*, которое тем выше, чем больше разных аллелей в 
популяции. Увеличение числа потомков от К ДО к + 1 уменьшит дис- 
персию оценки лишь в том случае, когда генеральное значение гете- 
розиготности превышает пороговое значение 2% для данного числа К. 

Казалось бы,.что в рекомендациях табл. 10 заключается порочный 
круг: мы должны выбрать с тем, чтобы затем оценить гетерозигот- 
ность, но для выбра К надо знать эту гетерозиготность. Однако этоне 
совсем так. В тех случаях, когда предварительные исследования поз- 
воляют оценить хоть приблизительно уровень гетерозиготности, 
можно уже планировать эксперимент, основываясь на этой предвари- 
тельной оценке. 

Пример 1. Если в популяциях присутствует всего два аллеля и мы 
не ожидаем значительного эксцесса гетерозигот по сравнению сожи- 
даемым распределением по Харди-Вайнбергу, то 2 всегда меньше 0,5, 
и поэтому Ё = 3 — оптимальный вариант в данном случае. 

Пример 2. Если по предварительным оценкам гетерозиготность в 
данных популяциях не может превышать 0,8, то, как следует из 
табл. 10, число потомков в семье не должно превышать 5. 

10 


Для только что обсужденной за 


Таблица 11 


Оптимальн 
ый се потомков для оценки гетерозиготности по 
р акам в популяциях с частичным самоопылением 


Частота рецессивных гомозигот в популяции А 


Н |0 |005 | 010 | 
|0,20 | [0.50 [0.60 | 070 | 040 | 0,85 


Уровень перекрестного опыления 10% (1 - 0,1) 
1 1 | 


1 
1 
1 5 
6 
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454 
8 
жи 


Уровень перекрестного опыления 50% ({ = 0,5) 
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> 
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Уровень перекрестного опыления 90 (1 = 0,9) 
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Сейчас: мы 
т. а случаи, когда признак наследуется 
пана ‚ т.е. все генотипы выявляются однозначно. 3 
Ан Е возникает и при анализе по 2. 
и а чтобы выявить, является ли с 
ком гомо- или ге 
2 терозиготным по доми - 
о е д получить потомство, о Ати 
и о Без. процедура во многих исследованиях — ве. 
мков на растение. От | 
рам . Отличие этог 
и: 2 сео заключается в том, что здесь нет пари и 
мена раза оа арад или анализа гаплоидных 5 
, тный заранее генет Я 
Т ический пул пыль 
паши и ег а1., 1970], что в этом случае ла аа 
же может бъть невелико. В общем случае а. 
де- 
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ляется уровнем гетерозиготности популяции и степенью перекрест- 
ного опыления і. Табл. 11 показывает оптимальное число потомков от 
растений с доминантным признаком в популяции с данными уров- 
нями гетерозиготности Ни долей рецессивных гомозигот Е для трех 
уровней перекрестного опыления (10, 50, 90%). 
Из таблицы следует, что оптимальное число потомков превышает 

лишь в тех случаях, когда гетерозиготность достаточно велика. Бы- 
тующее требование, чтобы число потомков на особь было не меньше 
10, надо выполнять для правильной индивидуальной оценки каждого 
растения. Однако для данной задачи — оценки гетерозиготности 5 
группе растений -- это число действительно ен Ы 
ляциях с высоким уровнем инбридинга лишь тогда, когда К Е ў я 
>0,86; для популяций с высоким аутбридингом число потомков к = Е 
оптимально при еще больших значениях Н (Вгомп ес 21., 19701. 
большинстве же других ситуаций для оценки фактической гетеро- 
зиготности по доминантным признакам наиболее оптимален один 
потомок на семью. Удобно то, что в случае К = 1 имеется явная фор- 
мула для оценки гетерозиготности Н при известной Е а 
кроссинга Е, доли рецессивных гомозигот В популяции К, числа р Ў 
дителей с доминантным признаком № и числа их потомков с рецес 


сивным признаком а: 


_ 1 КЕТЕ жур + 1641-02 - (1-1 -25))1. 


Другие меры разнообразия 


Для оценки степени аллельного разнообразия популяций бывает 
удобно учесть общее число разных аллелей, обнаруженных по дан- 
ному локусу. Однако более показательно их число не в абеолютном 
выражении, а с учетом частоты встречаемости: чем меньше частота 
аллеля, тем меньший вклад он вносит в аллельное разнообразие ло 
куса. Одной из мер этого разнообразия является так называемое эф- 
фективное число аллелей п, ІСгоу/, Кшша, 1970] 


5,2 
пе= ИИ – А), или л, = Урі, 
ігі 


где рі, ... рњ - Частоты аллелей по данному локусу. Его ста- 
тистическую ошибку можно определить по следующей приближенной 


формуле: 
за“ зҚ1- 8), 


где 5, — выборочная ошибка гетерозиготности. 

Эффективное число аллелей как величина, обратная гомозигот” 
ности популяций (1 – й), является удобной мерой аллельного рано 
образия, которая успешно используется при анализе теории Ди т 
ральности Кимура, 19851. Но дажев тех ситуациях, когда есть отбор в 
постулаты теории нейтральности не соблюдаются, эффективное чис 
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о, 


ло аллелей п, можно формально использовать для оценки аллель- 
ного разнообразия группировок. 

Вместе с тем часто желательно оценить не только аллельное, но и 
фенотипическое (или генотипическое) разнообразие. Для этого пока- 
затель пе уже не годится и следует использовать другие меры. В ря- 
де работ, особенно экологических, получила распространение 
энтропия — так называемая информационная мера разнообразия 
Н= -Урапр, Показатель Н использовался в ряде теоретических работ и 
имеет вероятностно-статистическое обоснование [А.М. Яглом, И.М. 
Яглом, 1973], что и позволяет иногда применять его для решения био- 
логических задач. Дисперсия его выборочной оценки, на которую 
легко получить методом, изложенным в $3 гл. 1: 


1 т 
ҮН) = т У рп? р-Н? |, 
ігі 


„Показатель Н, впрочем как и эффективное число аллелей, не всегда 
удовлетворительно описывает разнообразие популяций, поскольку 
недоучитывает редкие фенотипы. Существует иной показатель ц, ко- 
торый удовлетворяющий ряду требований, одно из которых — адек- 
ватный учет редких фенотипов [Животовский, 1980]: 


и = (р, ж... ер. 


Показатель |, называемый средним числом фенотипов, удобен в 
интерпретации — он показывает, сколько в выборке разных фено- 
типов (с учетом их частоты): при равных частотах всех фенотипов р. = 
=т; при неравномерном распределении частот фенотипов р < т; при 
мономорфизме р = 1. Стандартная ошибка р: и = Үр(т- вм. 

В популяционных исследованиях может оказаться полезным еще 
один показатель — доля редких морф | Животовский, 1980] 


һ-1-(шм/т). 


Если распределение частот морф равномерное, то һы = 0. При не- 
равномерности распределения частот всегда й, > 0. Следует иметь в 
виду, что здесь понятие "редкий фенотип" определяется только по 
отношению к более частым морфам, присутствующим в этой выборке. 
Показатель д, дает новую по сравнению с р, информацию о характере 
разнообразия фенотипического состава популяции. В то время как м 
оценивает степень разнообразия, показатель й, дает определенную 
характеристику структуры этого разнообразия в смысле соотноше- 
ний между частотами наиболее редких и наиболее частых в этой вы- 
борке фенотипов. Стандартная ошибка доли редких морф 


зь = зу/т, или за = ҮА, 1 - УМ. 


При оценке величин ш. и особенно й, следует иметь в виду, что они 
очень чувствительны к наличию в выборках единичных особей с ред- 
ким признаком. Границы применимости этих показателей неизвестны. 
Можно только сказать, что при наличии редких морф в группировке 
8. Зак. 1490 113 


Таблица 12 
Численность и част 
выборках 


оты фенотипов и меры ри д, в трех гипотетических 


Среднее Доля 
ыы число редких 
феноти- фенотипов 
пов р р, 


1 23 10 10 7 - 50 4 3,80+0,74 0,051 %0,018 
П 30 10 7 2 1 50 5 3,80 0,259 0,240 0,052 
П (5-йи 30 10 7 3 - 50 4 3,41+0,169 0,148+0,042 
4-йфено- 
типы объ- 
единеиы) 
Ш 18 9 15 12 6 60 5 5,840,047 0,032 %0,095 


ПА 


их оценки становятся стабильными лишь при очень закара о 
выборки. Действительно, наличие одной редкой особи или — 
ствие ее в выборке — дело случая. Поэтому мы ен р др, 
мендуем в таких ситуациях объединить редкие морфи в одну гру К ШЕ 
с тем чтобы каждая морфа была представлена как минимум У 


бл. 12). 
особей; см. условный пример (табл. 
Если исследуется І, независимых признаков, то можно определить 


среднее число морф в популяции по всем этим признакам: 
д = (ра +... + АЙ. 


Стандартная ошибка р: 


‚5 — соответствующие 


$51, 525... 
В этих формулах Юі 2“: №; 81» 52» 
м артных ошибок по каж- 


значения показателей разнообразия и их станд 


дому признаку. р | . 
Аналогично можно оценить среднюю долю "редких" морф по не 


скольким признакам: 


п = (+... + МИ. 


Ошибка ее 


1 Е 2 
5 == 5А +...+8р, + 
в [1 Е 


Заметим следующее: если мы хотим оценить среднее число аллелей 
по данным об их частотах, то следует иметь в виду, что ад пре 
денные формулы справедливы; только в формулах для ошибок сл 
дует заменить М (объем выборок) на 2М (число аллелей). 
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Ассоциация признаков 


Пусть изучаются два признака: А и В: по признаку А имеется К фе- 
нотипических групп — А, Аҙ,..., Ар; по признаку В-т фенотипов — 
Ви, В»,..., Ви.Пусть имеется выборка из М особей. По обоим признакам 


возможны Кт различных фенотипов. В соответствии с ними раз- 
местим все М особей нашей выборки в клетки таблицы сопряженности: 


Признак А признак В 


ма 


А № 1 Мо Ма м А 
Ав Мау 02 Мә, № 
Ак Ма Ме За 09, мде Се 424 0% Мі, №. 
Сумма М Қыс зе № блай % я Мт М 


В этой таблице М; — число особей фенотипа АВ; №; — число осо- 
бей фенотипа В; М, - число особей фенотипа А; т.е. 
К 


т 
М. = УМ р Море хм, (следует заметить, что подобные таблицы обыч- 
ј=1 1 
ны для многих задач биометрии; мы с ними еще встретимся при тес- 
тировании гетерогенно выборок, оценке асортативности скре- 
щивания и др.). При анализе подобного рода таблицы возникает два 
вопроса: 1) взаимосвязаны признаки Аи В друг с другом или нет? 
2) какова мера их взаимосвязи? Рассмотрим эти вопросы по порядку. 
Тестирование взаимосвязи признаков можно осуществить стан- 
дартным х2-критерием сопряженности: 


где №.; = г. Ј —ожидаемая численность особей фенотипа А В) (ожи- 


даемая — при независимости признаков А и В). Статистический кри- 
терий состоит в том, что нуль-гипотеза об отсутствии взаимосвязи не 
отвергается, если величина Х2, не превышает значения, отвечающего 
уровню значимости а для Х?-распределения с у степенями свободы, 
где у = (К-1)(т- 1). Если Х превышает его, то принимается альтер- 
нативная гипотеза о взаимосвязи между признаками А и В (на уровне 
значимости а). Условия применимости Х?-критерия стандартные: все 
ожидаемые численности не меньше 5, кроме, возможно, одной, кото- 
рая не должна быть меньше 0,5. 
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Как мы уже говорили, анализ таблиц сопряженности встречается 
во многих разделах биометрии, в том числе и популяционной био- 
метрии. Методы их анализа идентичны. Поэтому, чтобы не повто- 
ряться, мы ограничимся следующим указанием. Помимо х?-критерия, 
есть и другие тесты для анализа таблиц сопряженности: 
модифицированный х2-критерий, С-критерий, точный критерий Фи- 
шера для таблиц 2 х 2. Мы приводим их в следующем параграфе (см. 
также $2 гл. 3). 

Пусть критерий Х2 указывает на значимость взаимосвязи признаков. 
Как охарактеризовать степень этой взаимосвязи? Имеется ряд мер 
сопряженности признаков [Аптон, 1982]. Укажем на две из них; они 
связаны с величиной критерия 2. Это так называемая мера Чупрова: 


ЗЕ 


и мера Крамера: 


2 12 
ттт = = 


ЕЕ 


‚ Стьюарт, 
а ПА ааа 


1 1 
Их ошибки: 5т= м 5у 


М\у 
1976]. 
Имеет смысл вычислять и использовать эти ошибки, если они как 


минимум в 3 раза меньше самих оценок. 


Неравновесие по сцеплепию 


Взаимосвязь различных признаков, выявляемая критериями соп- 
ряженности, может быть вызвана разными причинами (в том числе и 
генетическими). Пбследние могут заключаться или в плейотропном 
действии аллелей одного локуса, или в неслучайной ассоциации ал- 
лелей разных локусов. Поскольку плейотропия теоретически выгля- 
дит как предельный случай ассоциации для абсолютно сцепленных 
локусов, далее мы рассматриваем как общий случай ассоциацию неал- 
лельных генов. , 

Ассоциация аллелей разных локусов может являться важной при- 
чиной сопряженности признаков и регуляции их изменчивости в по- 
пуляциях [Животовский, 1984]. Поэтому задача ее выявления весьма 
важна. Но прежде чем рассмотреть соответствующие статистические 
методы, изложим теорию вопроса. 

Пусть рав, раль, Рав» Ра Оценки частот разных типов гамет по двум 
парам локусов с аллелями А, аи В, в выборке объема №. (Такие 
оценки возможны, например, по данным о скрещиваниях с особями из 
тестерной линии — см. ниже.) Частоты аллелей при этом: Ра = Рав Рав. 
рв = Рав+ Рав. Требуется выяснить, при каких условиях ковариация 
между частотами аллелей разных локусов равна 0: Со\(ра, рв) = 0. 
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Имеем 
Соу(рд, рв) = Со\Рав, Рав)+ Сомрдв. Рав)+ Соу(рдв, Рль) “Соу(рдь Рав) = 


1 
= МРав (1 — Рав) — РАв-Рав —— Р дв Рль--Р дь Рав]. 


После ряда алгебраических преобразований получим 
1 1 
Соу(рад, рв) = МОРАВРаһ — Рль Рав) = м? 


где = равраь - РдьРав— коэффициент неравновесия по сцеплению 
(гаметического неравновесия). Этот показатель можно записать в 
иной, эквивалентной форме: О= рав- РаРв. Отсюда следует, что Соу 
(ра, рь) = 0, когдар = 0, т.е. когда рав = РАРв. Как легко показать, из это- 
го условия (Р = 0) следует также, что рдь = РаРь. Рав = Ра Рв, Рав = РаРь. 
Значит, условие Д = 0 означает случайность (независимость) комои- 
нирования аллелей разных локусов. Иными словами, это те же соот- 
ношения Харди-Вайнберга, но только для неаллельных генов. 

Многочисленные поиски неаллельных ассоциаций и доказательств 
их адаптивной природы по аллозимным локусам нередко приводят к 
неудачам. Но не следует думать, что эти неудачи свидетельствуют 
именно о нейтральности полиморфизма. Во-первых, генетическая ге- 
терогенность "электроморфы", выявляемой стандартными методами 
электрофореза, может затушевывать имеющиеся ассоциации ІУҮсіг, 
Соскегћат, 1978]. Во-вторых, интенсивность дифференциального от- 
бора по данной паре локусов в данных условиях среды может быть 
невелика — не превышать нескольких процентов или долей процента 
(несмотря на возможно большое давление отбора в целом на геном). 
При этом, конечно, значение р будет мало, поэтому гаметическое не- 
равновесие при попарном сравнении локусов трудно обнаружить. 
Так, А. Хастингс [Наѕііпрѕ, 1981] теоретически показал, что если отно- 
сительные приспособленности всех генотипов по данной паре локу- 
сов лежат в пределах от 1—5 до 1+5 (т.е. максимальная разница в ко- 
эффициентах отбора - 25), то || < 5/10 г, где г — частота рекомбинации 
между локусами. Например, если разница в приспособленности осо- 
бей разных генотипов по паре локусов достигает 10% (5 = 0,05) и час- 
тота рекомбинации в среднем для обоих полов равна 10% (г = 0,1), тор 
никогда не превысит по величине 0,05. Фактически П будет еше мень- 
ше, если частоты аллелей не являются промежуточными. 

При столь малых значениях П следует иметь значительную вы- 
борку, чтобы выявить статистическую значимость гаметической ассо- 
циации (табл. 13 демонстрирует объем выборки гамет, требуемый для 
обнаружения гаметического неравновесия). Если оценка гамети- 
ческого неравновесия проводится по данным о частотах генотипов, 
то выборка будет еще больше, чем величины, указанные в таблице. | 

Оценка П по частотам гамет. В некоторых случаях мы можем 
непосредственно определить частоты гамет и тем самым оценить В. 
Один из таких случаев — генотип родителя определяется по его по- 
томкам. Например, у О. теіапораѕѓіег для определения типа гамет (хро- 
мосом) самцов, взятых из популяции, надо проанализировать потом- 
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ство от каждого из них в скрещиваниях с самками тестерной линии, 
гомозиготной по генам, ассоциация которых изучается. Другой — 


ЗЕ изучение молекулярно-генетических маркеров в гаплоидных тканях 
5 с или органах, например макрогаметофитов хвойных растений. При 
9 т этом данные по частотам типов гамет для двух локусов можно пред- 
Е Е Зее 55:28 оц ставить в виде таблицы сопряженности. Здесь М; — численность га- 
2 Е мет АВ, №. — число аллелей А, №; — аллелей В; М — общее число 
я & проанализированных гамет: 
>5|.|«| 33583 0095 сад тя с 
8 9 % Та Аллели по Аллели по локусу В Сум- 
Е 5 Я локусу А ма 

Бо 
ЕЕ | Е 25828 85508225808 
Е = 5 А Ми Мо Мот М 
Е с Е Аз №1 №22 Мот № 
НЕ ЕДЕ 288 383 275 | 

А | | 
5 4 | А Ма Мо Коле Во же ра М, 
ко | М. : : ; Аз ож М. 
а 32868 2353 558 18 А ыма РА ый 
5 ше 
Е Е Эта таблица — обычная таблица сопряженности признаков. И про- 
3 5 оввац едіі зна че 2 верить, есть ли нераноресне по сцеплению, — это значит применить 
Е Е 28 3 с 35225 23 во а один из тестов, например х“-критерий. 
>< - Оценка ) по частотам генотипов. Данный выше метод оп- 
3 5 ределения козффициента О предполагает возможность оценки частот 
е 2 ШЕКЕ ы Ола әс гамет. Такую оценку можно получить лишь в отдельных случаях, ука- 
х а сос Е: 2%5 ыл д” © занных выше и то не всегда. Например, если имеется тестерная линия, 
5%5|9 таз гомозиготная по обоим локусам, то типъ хромосом можно въявить 
а 4 Е для каждой особи изучаемой выборки, скрестив ее с особью из 
= 9 5 чо зове чаз за 8 тестерной линии и определив генотипы потомков. Но это возможно 
8 ера 58183 яч < лишь для видов, у которых по одному из полов кроссинговер отсут- 
5 Е Ё ствует, как, например, у двукрылых насекомых. Уникальную возмож- 
5 5 | ность представляет изучение гаплоидных тканей (например, гап- 
Е Е КІРІ ыла ЛА Тазы лоидного макрогаметофита у хвойных и других голосеменных рас- 
5 а 5: < 93 е 885 еЗа БЫС тений), поскольку по результатам анализа нескольких семян полу- 
Е 8 чаем данные о типе хромосом материнского дерева. Однако и здесь 
о : возможности ограничены: у хвойных, скажем, тем, что указанным 
ее ИҚ зе дюна з ю- + способом нельзя оценить типы хромосом у подростка. Так что в 
а Б Вон ТАЕ большинстве случаев невозможно явно определить частоты типов га- 
ес | мет и приходится обращаться к статистическим приемам. Имеется 
5 Е | ряд методов оценки О | НШ, 1974 а, Б; Вгоууп, 1975], однако они ос- 
Е 5 -чази чата өжет чи ғ нованы на предположении о случайности скрещивания и тести- 
29| в ооо сео ое бото ровании генотипов до отбора; и то и другое малореально. 

” 9 Е е | Б. Узйр (Ме, 19791 предложил меру неравновесия, близкую к О, ко- 

5 Е 3 8 ! торую можно прямо оценить. Мы обозначим ее р»: 

= 
КЕН я ы: в ва | 


ЖІГЕР) 
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В популяциях со случайным скрещиванием Р” = Б. В иных случаях 
такого совпадения нет, но О" имеет то преимущество, что его можно 
определить непосредственно по наблюдаемым частотам генотипов. 

Пусть анализируется неравновесие по локусам А и В, с аллелями 
А Аҙ,... Аи — по первому локусу и аллелями В), Вә,..., Ви — по 
второму локусу. Обозначим МА — число особей генотипа АА, ВВ в 


ТІ І 
выборке объема М; частоты этого генотипа обозначим Ру = № М. 


1 


Тогда, согласно определению, для аллелей А; и В; имеем 


р» =2р# + УР + УР #2 У, РХ -2р(А,) р(В;), 
к>і 1>] к>іі>/ 


где первый член — удвоенная частота двойной гомозиготы по 
аллелям А;и В;; второй член — сумма всех одинарных гетерозигот 
по аллелю А; (по второму локусу особи гомозиготны: В)В)); третий 
член -- сумма всех одинарных гетерозигот по аллелю В; (по первому 
локусу особи гомозиготны: А;Ар; четвертый член — половина суммы 
частот всех двойных гетерозигот, имеющих аллель А; в первом 
локусе и аллель В; во втором локусе; вычитаемый пятый член 
2р(Арр(В) — удвоенное произведение выборочных оценок частот ал- 
лелей А; и В). 

В частном двуаллельном случае (когда аллели первого локуса 
обозначены и а, авторого — Ви в) 


Т 1 
р"; = 2Р(АА,ВВ) + р(Аа, ВВ) + Р(АА, ВЬ) + „Р(Аа, ВЬ) - 2рарв 


» 
(в двуаллельном случае можно не въчислять заново величин "Р ль 


» Ж” 


М4 м 
р”, 0”, так  какО = в Рав = -О дв, Раь = Рав). Схему 
вычисления можно представить в удобной табличной форме (табл. 
14). е 
Удобно пользоваться в качестве меры неравновесия не самой ве- 


личиной рү, а коэффициентом корреляции частот аллелей А; и Ву; 
уж РУРКАРА - р(АЙ) + Н(ААЙІР(В/Х1-р(В)) + НІВ В)", 


где Н(А;А)-Р(ААЙ-рХА) — отклонение от соотношений Харди- 
Вайнберга для гомозиготы А;А; аналогично Н(В;В/) = Р(В;В)) - РХВ}) - 
по второму локусу. 

Значимость конкретного неравновесия можно проверить крите- 
рием [Меіг, 1979]: 


2 
Х2 = Мр 


справедливости нуль-гипотезы Н орг = 0 


который в случае г 


распределен какх? су = 1. 
120 


Таблица 14 
Таблица для вычисления оценки неравновесия ру; 


Генотипы Генотипы По локусу В 


по локусу 
А 


1 қ = 
М№М;=2 ші сумма всех ЕН + 5 (сумма всех Г] ) 


у 


м, 


рту= = = 2р(А0р(В)) 


Суммарный критерий по всем парам неаллельных ассоциаций АВ) 
определяется как 


При справедливости нуль-гипотезы эта величина распределена как 
"хи-квадрат" с у = (т- 1)(п – 1). 


$3. СРАВНЕНИЕ ВЫБОРОК 


После оценки частот фенотипов и аллелей в исследованных выбор- 
ках часто встает задача сопоставления их друг с другом. Цель такого 
сопоставления — выявить, есть различия между выборками (а значит, 
между теми группировками, из которых взяты выборки) по частотам 
морф или нет. Статистически задача ставится следующим образом. 
Пусть имеется К выборок, в которых суммарно обнаружено т различ- 
ных фенотипов. Данные об их численности в выборках представимы в 
следующей форме (табл. 15), где п; — количество особей /-го фенотипа 
в выборке номера і; объем выборки №; Обозначим р; = (ри, Ро, - Ри) -- 
— вектор-строку, составленную из выборочных частот всех феноти- 
пов ві-й выборке: 

ри = па/Мь ро = П2/Мі, -.., рт = ПіҺ,/МІ, 

Вектор р; характеризует распределение фенотипов в выборке. Гене- 
ральное значение вектора частот в той группировке, откуда взята і-я 
выборка, обозначим т;. Задача сравнения заключается в статистичес- 
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Таблица 15 : Р 
Форма представленных данных о численностях т фенотипов в к выборка 


Численность 


Фенотип 


Въборки 
выборок 
“ М 
1 пъ "12 "13 "т В: 
2 тд "22 поза сорт с КН а Пот зе 
пз "32 Па аы А 
М 
Исто лан поло ла ЖЫЛИ к 
к пц „пе тв са 
л по т Пт Сумарная 
СУММА численность 


в, обнаруженных во всех А выбор- 
— объем і-й выборки; № — сум- 
сть фенотипа / во всех А 


Примечание. т — общее число разных фенотипо 
ках; пу — численность фенотипа / в і-й выборке; № 
марная численность всех К выборок; п; — суммарная численно 


выборках. 
Е: 


кой проверке следующей нуль-гипотезы: 

Ноу: ту = п = ...-= Те 

Согласно этой нуль-гипотезе, генеральные распределения 5. 
идентичны во всех группировках, а выборочные гара зу 
тор-частот р, р», --., рк Отличаются друг от друга толь Е 
фекта случайности выборки. Если статистические ней вая 
отвергают нуль-гипотезу, то тогда говоря о шік сун: а 
пировок. Гетерогенность в данном случае о. ЗБЕ 
группировки отличаются друг от друга по распред 
изученных фенотипов. 


Й 


Основные тесты гетерогенности 


Критерий “хи-квадрат". Вообще говоря, "на все случаи жизни 
имеется стандартный х2-критерий, величина которого вычисляется 
на основе таблицы данных о численности особей различных феноти 


пов по известной Формуле 
2 у Ру) ЗЫ _ 
ан у-(Е-1)(т-1), 
1 
где й; — а численности фенотипов, ЕЕ как 
Пр = ММ (здесь №М= М, + Ю +... + Ми Пп; пу+ пор +. + Па). 
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Указанную формулу можно записать по-иному, используя не чис- 
ленности, а частоты: 


1 [3 
где Р +” м УМ; Ру — средневзвешенная частота /-го фенотипа по всем 


выборкам. 

Полученная величина Х? сравнивается с табличными значениями 
х? = распределения с у степенями свободы. Критерий рекомендуется 
применять в тех случаях, когда все ожидаемые численности Л; не 
меньше 5, кроме, быть может, одного значения, нои оно должно быть 
не меньше 0,5. Таковы сейчас представления о границах применимос- 
ти этого критерия. 

Модифицированный критерий "хи-квадрат". Указанное огра- 
ничение на применимость стандартного х2-критерия не всегда вы- 
полняется, особенно в тех случаях, когда приходится иметь дело с 
относительно редкими фенотипами, а выборки имеют сравнительно 
небольшие объемы. Такие ситуации возникают регулярно, особенно 
если частоты редких морф низки; например не более 2-3%, а выборки 
не превышают 50-100 особей. Один из возможных путей — объедине- 
ние редких фенотипов в одну группу с более частыми. Однако попу- 
ляции нередко различаются именно по "шлейфу" редких морф, и та- 
кое объединение может привести к уменьшению мощности критерия 
х. Для таких случаев известен метод более точного вычисления кри- 
терия Х? с учетом малых теоретически ожидаемых численностей 
ПХазв, 1959]. Согласно этому методу, следует вначале вычислить стан- 


дартный ҳ2-критерий по данным табл. 15. Затем на его основе вычис- 
ляются величины: 


Хо = сХ?, ус = ст – 1) - ПМИМ - 1), 


2 
где Хс — модифицированная величина критерия; Ус — соответ- 


ствующие модифицированные степени свободы; Х2-- значение стан- 
дартного критерия; коэффициент с — поправка, учитывающая малость 
ожидаемых значений й; 


с= 2(т- 1(&- ПММ - 19, 
где 


м? 
от; 
М-3 ЕТ 
р= (&-1)(М- К) /(М-1); д = (т-1)(М т) /(М-1)}; 
бк мўи (№ 2);т= МУ-н /(М-2). 
і-1 ЗІ 


ГУ 
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Дальнейшее применение этого критерия стандартное: сравнение 
ха с табличной величиной х2-распределения с 1с степенями свободы. 

Отметим, что если все һу велики, тос=1и модифицированный кри- 
терий практически совпадает с традиционными. Однако если п; мало, 
тос # 1 и поправка становится существенной. При этом число степе- 
ней свободы ус становится дробным. Как оценивать критические зна- 
чения ҳ2-распределения в такой ситуации, указывалось ранее (см. $ 2 
гл. 1). 

Использование модификации позволяет несколько снизить ограни- 
чение на применимость по сравнению со стандартным х?-критерием 
(как уже говорилось, для него все ожидаемые численности больше 5, 
кроме, возможно, одной, но она не должна быть меньше 0,5). Вероят- 
но, с использованием модификации граница минимальной ожидаемой 
численности в одном классе снижается до 0,1. Строго это не доказа- 
но. 

Информационный С-критерий. Сейчас получает распростране- 
ние информационный текст [Кульбак, 19671, называемый также С-кри- 
терием |5оКа!, Коп, 1981]. Схема вычислений здесь такова. Вначале 
определяют величины: 


кт к 
0 = Ў, Ууд пр» О = Х.М;іп М;, 
== і=1 


затем — так называемую поправку Уильямса [М/ИНатз, 1976]: 


к 1 т1 
мУ---1|мУ---і 
ИМ ј=1") 


см(%-1Хт-1) | 
Критерий С окончательно считают по формуле 
С = (0, - 02 - Оз + 94/4. 


величина С, как и стандартный критерий, имеет х 2-распределение 
су = (&- 1)(т – 1) степенями свободы. Границы применимости его не- 
известны. 

Если сопоставлять данные критерии, то следует иметь в виду, что 
критерий "хи-квадрат", как и его модификация для случая малых 
ожидаемых численностей, вероятно, консервативен, т.е. чаще, чем это 
должно быть, принимает нуль-гипотезу, когда она неверна. С-крите- 
рий близок к нему, но в целом ему начинают отдавать предпочтение, 
хотя он, возможно, в противоположность “хи-квадрат"-критерию яв- 
ляется "либеральным", т.е. отвергает справедли вую нуль-гипотезу 
чаще, чем это должно быть по теории. 


4=1+ 
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Тесты для однего фенотипа 


Обратимся теперь к рассмотрению хотя и менее общих задач срав- 
нения выборок, но все же достаточно важных и часто встречающихся. 
В частности, нередки ситуации, когда исследуемый признак имеет 
две основные морфы, а остальные встречаются изредка, лишь у еди- 
ничных особей. В таких случаях достаточно "следить" за частотой 
одной из таких морф, поскольку частота другой морфы является 
величиной, дополняющей до 1. Нередко также сознательно выделяют 
одну форму А из нескольких наличествующих и анализируют только 
ее, объединив остальные морфы (даже если их несколько) в группу 
не-А; частота этой группы морф также дополняет частоту морфы А 
до 1. Рассмотрим отдельные случаи. 

х2-критерий. Такая ситуация, когда выделяется одна фенотипи- 
ческая группа, формально соответствует рассмотренному случаю 
сравнения К выборок (см. табл. 15), но только с т = 2. Здесь использу- 
ются указанные общие формулы для вычисления Х2, но при этом вы- 
числения упрощаются, а именно: 


1 к 

2 2 
шен сі У №р; - №? |, 
Р(1 - р) і=] 
где р; — частота исследуемого фенотипа А в выборке номера і(чис- 
ленность которой равна №); р — средневзвешенная частота: р = 


Хх? = 


к 

2 ‹ 

=> МР: М — суммарная численность всех выборок: № = УМ). Число 
і-1 і-1 

степеней свободы у = Ё ~ 1. Поправка сдля модифицированного 


критерия 
2 
Хс = сХ2,уа = су 
въчисляется по тем же формулам, что указаны выше, только надо 
считать т = 2. Применим в случае т = 2 также и С-критерий. 
В случае тестирования гетерозиготности выборок по частоте од- 


ного фенотипа удобно воспользоваться арксинус-преобразованием %. 
В этом случае критерий принимает вид 


к 
ХА =| Умф?-№ф |, 


і=1 


Е 3 3 

где Е ГА 7 ; №; — численность і-й выборки; 

п; ое в этой выборке особей исследуемого фенотипа; 

Ф со УМ; — взвешенная средняя для %,. Величина Ха. при спра- 
і-і 


ведливости нуль-гипотезы имеет д2-распределение с К-| степенями 
свободы. 
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Сопоставим рассмотренные критерии сравнения выборок. Кри- 
терий "хи-квадрат" — этот классический тест — является несколько 
консервативным; он принимает нуль-гипотезу (гипотезу однороднос- 
ти выборок, т.е. принадлежности их одной генеральной совокупнос- 
ти) чаще, чем следовало бы. Вероятно, относительно консервативен и 
критерий ХЕ Что касается критериев Хо и С, то нет исследований их 


статистических свойств. Не исключено, что они, в особенности 
критерий С, могут чаще отвергать нуль-гипотезу (в случае ее 
справедливости), чем это следовало бы при выбранном уровне 
значимости. 

Точный критерий Фишера. Все предыдущие методы применимы 
и кслучаю попарного сравнения выборок по частоте одного феноти- 
па. Это случай, когда ќ=2 и т-2. Чтобы не повторять общие формули- 
ровки, опишем задачу. 

Пусть имеются две выборки численностью Ми №», М =М, + № — об- 
шая численность; п! и п› — числа особей изучаемого фенотипа в этих 
двух выборках, пя № + п — общее число таких особей; и № — п — 
число особей других фенотипов. Исходные данные представим в виде 


таблицы: 
Фенотип А Фенотип не-А Численность 
№ 


Выборка ! т рад 
Выборка 2 т Мт № 
Сумма а е А 


Спрашивается, значимо ли отличаются друг от друга выборочные 
оценки частот Р! = п/М и Рз = пз]№? Иными словами, справедлива ли 
нуль-гипотеза Но: пе по ГДе п И 12 — генеральные частоты изу- 


чаемого фенотипа в сравниваемых группировках? 
Конечно, для ответа на этот вопрос можно применить рассмотрен- 


ные критерии, например ХиХ ы Они в данном случае алгебраически 


упрощаются и принимают вид: 


2 
м№№(р Ро) ММ 
2. ММДР-Р2 2? МУ 
хХ---- ---, Х%- - , 
здесь р= (пМ + р2М)/М — средневзвешенная частота фенотипа. 


Уровень значимости определяется по х2-распределению с одной сте- 
пенью свободы. 

Однако’ для рассматриваемой задачи существует точный метод 
оценки значимости различий — так называемый тест Фишера. Суть его 
заключается в определении вероятности получения нашей конкрет- 
ной случайной выборки, а также вероятностей тех возможных слу- 
чайных выборок, которые находятся на "хвостах" теоретического 
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распределения. Сумма этих вероятностей и есть точный уровень зна- 


ч 
имости различий между двумя сравниваемыми выборками. В учеб- 
ных целях рассмотрим это детально. | 


алатыны теории, вероятность нашей выборки среди всех возмож- 
х выборок с данными численностями М), №, и суммами пи №№л (см 
данную выше таблицу) | 


(М-лИ!М|!М,! 
Р(а)-зл ; "Қ п)! М! М! | 
іт (п- п)(М - п)ҚМҙ -п+ т)! 
Определим для любого і величину 
“Е | Мп) МИО 
Мп 010-2) 0А -п+2) 
Пусть генеральные значения частот в сравниваемых группировках 


будут т, и т;. Рассмотрим вначале двусторонний критерий для про- 


І ОТ Ыы Н т т (альтернативная гипотеза На: т 1#Т ). 


і = тах (0, п-№}, і = тіп {п, №). 
Тогда точный уровень значи 
я мости о определяется следующим об- 
п] я 
52 Р(1)+ УР(),еслир<ро, 


ішц іші0 


0 о 
У Р(і)- УР(і),если р> ро, 
і Ё 


і= 1 сп 


а = 


где іп — такой номер, начин і < і 
р, ая с которого все Р(1) < Р(п) (і < і для 


р! > р2и! > із дляр, < ро). Это и есть точный критерий Фишера. Он 


используется и как односторонний тест, когда альтернативная гипо- 


А’ < , г, 2 


п] 
У.Р(1), если р. < ро, 
Ина 
ела для На: ту < при 
УР(Г, если р> ро, 
і-й 
Д 
ХР(), если ру <р 
1=Ю 4 
ВЕ 5 На: пу > тои 
УР, если р> рә, 
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Критерий Фишера поддается рациональной компьютерной алго- 
ритмизации. При этом он наиболее предпочтителен как точный метод 
сравнения. Безусловно, ему надо отдавать предпочтение при не- 
больших объемах выборки и при низких (близких к 0) или, напротив, 
высоких (близких к 1) частотах фенотипов. 


2 
В заключение укажем критерий, совпадающий с Хо но позво- 


ляющий рассматривать также и односторонние гипотезы. Это так 


называемый и-критерий [Урбах, 19751: 


и-(ө:-%)/ 


гдеф и $2 — арксинус-преобразования выборочных оценок частот рі 
ир,. Уровень значимости для проверки альтернативной гипотезы 
Нл: т, > по (или На: пъ < по) определяется на основе величини и по 
таблице нормального распределения. : 

Сравнение редких частот. В биометрии всегда особняком стоя- | 
ла задача сравнения редких собътий, т.е. случай очень низких частот — 
фенотипов. Тем не менее она достаточно важна, поскольку при изу- 
чении редких фенотипических вариантов, обнаруживаемых лишь В 
очень больших выборках, крайне низкая их частота — десятые, сотые, 
а то и тысячные доли процента — обычная ситуация. Для их сравне- 
ния многие рекомендуют использовать стандартные статистические | 
тесты, например щф-тест. Однако можно указать достаточно точный | 
биномиальный критерий (Казепһашт, Вомтап, 19701. Суть его в сле- | 
дующем. 

Пусть № и № — объемы сравниваемых выборок (достаточно боль- 
шие. десятки тысяч, даже сотни тысяч); ћу — ЧИСЛО редких вариантов, 
обнаруженных в первой выборке; "2 — число их во второй выборке. 
Обозначим л = л; + "2 — общее число найденных вариантов. Опреде- 


лим долю наблюдений, на первую выборку: 4 = №М/(№ + + Мо). 
Идея критерия такова. Если бы обе группировки, из которых взяты 


выборки, не отличались друг от друга по встречаемости редких ва- 
риантов признака, величины №1 И һ2 


были бы распределены по бино- 
миальному закону: 


ожға-ау>, 


где (^) — обозначение для числа сочетаний из л элементов по 5. В этом 


случае вероятность значительного отклонения величин п; И п2 От 


ожидаемых значений была бы мала. Поэтому тестом гипотезы На: 
доля редких вариантов в первой группировке больше их доли во вто- 


рой группировке — является сумма: 


о = 5, (1) га —9)"*. 


ЗЕ 
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1 


Величина 
а, -- 
1 уровень знач 
или 0,01, то эт имости. Если а 
ОА, о означ 1 меньше, на 
ает большую частоту редких ису 0,05 
ов признака 


в выборке | н 
а уров 
На уровне значимости, соответственно 0 


п] 


95 У (2) 01-а)" 


5-0 


‚05 или 0,01. Ве- 


-- уровень значи 
мо 
сти для проверки противоположной ал 
ьтернатив- 


ной гипотезы НА (0 меньшей встре гаемости г р; знака в 1 ервої бс 
ке). 
в р 


При исполь 
зовании этого 
с подсчетом с критерия могут во 
боте Зее вун членов биномиальнаго В Е а 
для расчет р тированной 
ко они слишко ов таблицы бин ра- 
Е-распре дки. Поэтом сумм. Одна- 
делению (см У мы рекомен 
величину (см. 8 2 гл. 1), а именно, следут Дена обратиться к 
! ле вычислить 
неа. 
4 +1 
Если Е 
1 превосходит по 
оговое 
заданным ур р значение 
овне распре 
у) = 21, ТО о значимости о и степенями Арне ния ис 
частоты ее во вто за анной редкой морфъ в первой ВЫ ие. 
следует вычис рой выборке на уровне значим орке больше 
лить "реципрокную величину" ости а. Если Е < 1, то 
ра. 
1-4 т+1 


Здесь пр 
оцедура с 
потери и та же: если Ғ; превосходит по 
ния (У,у) с заданным уровнем з роговое 
начимости пи 


степенями св 
ободы у; = 
второй выборке ра 2(п1 + 1), У = 2л), то частота редкой 
а ьше частоты ее я морфы во 
паста в первой въборке на уро 
вне 


В тех с 
лучаях, когда 
3 обе вел 
критические зн ичины РриР 
ачен | 2 не Нове 
мости различий 2 Е-распределения, делается НИНА осходят 
че незначи- 
ора: на уровне 20. отами редкого фенотипа в исследоһ чи 
ример. Пусть а - чых 
; в 
соответственно 9 и ва объемом 87 000 и 28 000 об 
ним частоты этого 5. редкой наследственной оао 
х. олевания в огии. Оце- 
Рә = 8/28 000 = 2,86 - 10-4 Значимы ли группах: р; = 9/87 > 
Проведем вычисления: эти различия? 000 ; 


1-0757 9 


4 = 87 000/87 000 + 28 000) = 0,757 === 
0757 `(8 +1)“ 032. 


Е = 
Так как Е, < 1, то 
„0157 8 жаны 
т 0737 оъ1” 249: 


9. Зак. 1490 
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Пороговые значения Е-распределения для степеней свободы Ы я 
-20иУ2- 16 равны 2,28 (© = 0.05) и 3,25 (о = 0,01). Следовательно, 
уровне значимости 5% заболеваемость во второй группе с 

Й 4 вне 

= 2.86. 10-4) больше, чем в первой (р = 1,03 · 107). Однако на уро 
в 

азличия незначимы. Р 
а Рассмотрим теперь случай не двух, а большего числа (2 о 

вариант 
большими численностями №, №, ..., Ми с числом редких а Е 
соответственно л], По, ..., пе Как тестировать их на гетерогенн А 
встречаемости редких вариантов? Если, как и вао вещи ше 
сотни тысяч), то критерий 

въборок велики (десятки и Се 
ее аналогичным образом получить на основе мультиномиа 


го распределения: 


п мо пт пк 
ос Жа (>. п) ... ЧЕ > 


к 
= . . — М.. 

гдеп п, + пу +. + п 4; = МИМ; М 2 і 

Однако такую сумму вычислить непросто, и мы предлагаем приб- 
лиженный критерий 

2 
а «(щ- Фи) 

Ха = у2———, 

іші 41" 


ен примерно как х2 с К — 1 степенями свободы и 
Т р р Хх 
который распредел | ; В 


который можно применять, если величины 4; Бока 
довать менее консервативным оценкам, то одна из величин 4; 


0,5). 
быть меньше 5, но не менее Ч, | Вет 
Можно использовать другой критерий, основанный на нормал 


едует 
приближении распределения Пуассона [Засйз, 1982], а именно следу 
вычислить предварительно величины: 


204 + - МР), если р; < р, 


шк т 
| 2( Г; - (чр), еслир; > Р, А 
; ;-- тота во 
где р;= пиМ; — частота фенотипа в і-выборке; р — средняя час 
ГА 


рх Й е 
всех выборках (р- п/У). Критерий определяется по формул 
к 
2 2 
Хи =Уи г 
Ни 
ы. Ве- 
Он приближенно распределен как (2 с &-1 степенями свобод 
ипов 
роятно, критерий а для сравнения частот редких фенот 


консервативен. 
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2 2 
Сравним тесты Х.и Х „обратившись к рассмотренному примеру, 


где точно установлена значимость различий на уровне 0,05 между 
двумя выборками объема 87 000 и 28 000, в которых обнаружено 3 и 8 
случаев заболевания. Расчеты по приведенным только что формулам 


2 2 
показывают, что Х, = 3,3; Х „= 4,8. Первый из этих критериев, 


действительно, консервативен, ибо пороговое значение х2-распреде- 
ления с одной степенью свободы равно 3,84 при 5%-ном уровне 


2 
значимости. А критерий Х., как и точный тест, указывает на значи- 
мость различий. 


Сравнения по частотам аллелей 


Обратимся теперь к методам сравнения выборок по частотам алле- 
лей. Вообще говоря, рассмотренные в этом параграфе методы анализа 
частот фенотипов годны и для сопоставления аллельных частот. Од- 
нако математическая теория статистики ставит здесь определенные 
ограничения, а именно все данные в этом параграфе формулы приме- 
нимы для сравнения частот аллелей только в тех случаях, когда в 
каждой из сравниваемых выборок отклонения от соотношений Хар- 
ди—Вайнберга незначимы. К этому заключению мы приходим на том 
основании, что все приведенные формулы в своей основе опираются 
на биномиальное или полиномиальное распределение. Это наглядно 
демонстрируется точным критерием Фишера, где подсчет вероятно- 
стей ведется с использованием тетраномиального распределения, 
т.е. распределения с четырьмя членами (рассматривается таблица 
2х2). Если провести математические выкладки при выводе этого кри- 
терия для частот двух аллелей Аиа, то можно убедиться, что он 
сохраняет силу только в том случае, когда в ‘сравниваемых группи- 
ровках (откуда берутся выборки) справедливы соотношения 
Харди--Вайнберга. Ситуация, как видим, в точности та же, чтоив$ 1 
при вычислении ошибки частот аллелей. Как и там, в формулах сле- 
дует вместо численности особей использовать численности аллелей, 
в частности общая численность М заменяется на общее число аллелей 
2М. Все остальное остается без изменений. 


Рассмотрим для примера задачу сравнения частот кодоминантных 
(1) Б за 
аллелей А}, А, ..., Ад. Пусть М№ — число особей генотипа АА, в і-й 
выборке; ее объем М; = УМ у Если для сопоставления выборок 
ы 
обратиться к стандартному критерию х2 или его модификациям, то в 
таблице, данной в начале этого параграфа, п; — численность аллеля 


А; в выборке номера і. Величины пуопределяются следующим обра- 
зом: 
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Иными словами, численность аллеля равна сумме удвоенной чис- 
ленности гомозиготы по этому аллелю и численностей всех гетеро- 
зигот в выборке, содержащих этот аллель. Окаймляющие таблицу чис- 
ленности получаются так же, как и при анализе фенотипических 
частот, — суммированием чисел Пп; по соответствующим строкам или 
столбцам таблицы. Для сравнения двух выборок по частотам одного 
аллеля (или группы аллелей) можно применять точный критерий Фи- 
шера. В нем п, — число аллелей А в первой выборке, т.е. удвоенная 
численность гомозигот АА плюс численность гетерозигот по аллелю 
А. Величина п; — число аллелей А во второй выборке. Вместо числен- 
ностей М, и № следует брать численности аллелей в выборках, т.е. 
2М, и 2М, соответственно. Все остальные вычисления во всех приве- 
денных критериях остаются неизменными. 

Отметим, что не только отклонения от соотношений Харди— 
Вайнберга не позволяют использовать имеющиеся критерии при срав- 
нении выборок по частям аллелей. Оценки частот аллелей при доми- 
нировании, полученные по методу максимального правдоподобия 
или по другим методам, не распределены по биномиальному или 
полиномиальному закону и поэтому для них эти критерии не подхо- 
дят. Во всех таких случаях мы рекомендуем проводить сравнения по 
частотам непосредственно определяемых признаков, т.е. по частотам 
фенотипов. В качестве исключения можно рекомендовать также стан- 
дартный /-критерий попарного сравнения выборок по частотам от- 


дельных аллелей: 
а + (рът РАТА 52 + 52 ‚ где рі ир2 — частоты аллеля в сравнивае- 


25.2 
мых выборках; 51И52- ИХ статистические ошибки, формулы для 


которых даны в $ | этой главы; У = 2(Мі + №). Еще раз напоминаем, что 
этим тестом можно пользоваться лишь в тех случаях, когда ошибка 
каждой частоты как минимум в 3 раза меньше самой оценки. 


Суммарные тесты значимости 


в популяционных исследованиях нередки ситуации, когда имеется 
не один, а несколько независимых результатов проверки нуль-гипо- 
тез. Например, могут иметься данные по проверке соотношений Хар- 
ди--Вайнберга в нескольких выборках или в нескольких группах 
(например, возрастных) в пределах выборки, причем эти данные могут 
относиться к одному или разным локусам. По одной части данных 
отклонения от соотношений Харди--Вайнберга могут быть значимы- 
ми, а по другой — нет. Какой следует сделать вывод. справедливо ли 
в целом (по всей массе данных) проверяемое соотношение? Или дру- 
гая ситуация: имеется К экспериментальных выборок и в них есть 
тенденция к превышению (или уменьшению) редких вариантов по 
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срав ию р р ученны оженными 
2 , еи 
нен с контролем, но вероятности пол злож 


дами не дости . 
мето ‚ не достигают нужных уровней значимости Можно ли как- 
то с У ммирова ТЬ данные по всем выборкам? 


Имеются мет 
2. ОНИ: различных критериев проверки ги- 
р щих подхода, справедливых не только для тес 


тирования изменчи ч 
ных признаков, нои для любых 


а. Пусть проверяемая нуль гипотеза тестир уется Х -распреде- 
1: 2, -» ГА пол енные значения кри ерия 


число степе Й І Ч У 
ней свободы каждого из них обозна им у № 
1, ез УК 


Х =Х, + Х +... + Ж | 


В случае сп 
В раведливости нуль-гипотезы величина Х? имеет у2- 
е с суммарным числом степеней свободы У: 


У = ү + У) +... + Ур. 


Укажем, как пользоваться этим критерием 
Если каж 7 | 
дое из Х; незначимо и суммарное значение Х? также 


А з 1 д д 


данная нуль-гипотеза 


2 
из Х; столь 
; велики, что они значимы, а суммарный Х? все же не 


д пр вери ть, случайны или несл чаины столь боль- 
шие значения этих отдельных Х;. Сделать это можно следующим 
4 


М » з 
4 . Д 
р + а а 

1 


велика, что она 

занеса а на уровне а (например, а = 0,01). Тогда надо 

22. иальную вероятность Р; того, что в одном А 
дений реализовалось событие вероятности 0: “ 


Р; = к00(1 – о) -1. 


У 
= ЕЗ о сай 2; Ы а 5 п НЫ след ЮЩ 
гения А 6,7; х, - 1,1; Хх; - 1,0; Х, =: 1, қ х; = 0,7 ‚ каждое с ОДНОЙ 


степенью свобо т” езначима аже на 
б ды.Суммарная величина Х 10,9 н а д 
уровне 0,05, гак как порог овое значение для пяти степеней свобо ы 
Д 


равно 11 07 Однако Х значимна ровне 0 01 При а = 0 01пол чим - 
7 и 1 У з Ч У 
. 1 
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= 0.047. Так какР; < 0,05, можно заключить, что вероятность слу- 
чайной реализации такой величины Р, меньше 0,05. Значит, в целом по 
сумме пяти экспериментальных данных проверяемая нуль-гипотеза 
справедлива, но в одном случае она значимо отвергается на уровне 
0,05. Эту выборку надо тщательно исследовать. 

Если Р; > 0,05, то отклонение в первой выборке мы признали бы не- 
значительным даже на 5%-ном уровне и эта выборка вообще бы не 
привлекла внимания (при отсутствии допблнительных данных). 

“Может случиться так, что из К исследованных выборок, в сумме 
дающих незначимую величину Х2, значимости уровня а достигает не 


одна, а несколько величин х. Если | из К величин значимы на уровне 


о (при незначимости суммарного Х2), то следует вычислить 


вероятность Р; того, что в | случаях из К реализуется событие ве- 
роятности 0: 


Кү 5-І 
Р -( Да (1-а), 
(к= 1)...(6-1+1) 
1:2...1 | 
Если Р, меньше выбранного нами окончательного уровня значимо- 


сти б, то суммарно по всем этим | случаям нуль-гипотеза отклоняет- 
ся на уровне значимости С (можно взять, например, @ = 0,05, как в 


где ( ) --биномиальный коэффицент 


рассмотренном примере с 1= 1). 

Ь. Далеко не всегда тесты значимости могут основываться на 72- 
критерии. Например, одна и та же нуль-гипотеза может проверяться 
вразных выборках различными критериями в зависимости от частоты 
признака. Оказывается, что и для таких случаев данные можно обье- 
динять. Пусть 04 — точный уровень значимости, полученный по пер- 
вой выборке. 02 — по второй и т.д., 04 — ПО К-й выборке. Существует 
комбинированный тест, предложенный Р.А. Фишером: 


Х2 = – 2 пои + тор +... + Шоу). 


При справедливости нуль-гипотезы (в целом для всех выборок) ве- 
личина Х2 имеет у2-распределение с 25 степенями свободы. 

Если Х2 превышает табличное значение с выбранным уровнем зна- 
чимости 94, то в целом следует отклонить нуль-гипотезу на уровне 
значимости д.. Если по сумме данных нуль-гипотеза не отклоняется, 
но отдельные о; малы, то проводится оценка биномиальных вероят- 


ностей Р, точно таким же образом, как ива. 


При таком подходе важно знать точные значения уровней значимо- 


сти 04, 00, ..., О Если критерий основан на нормальной аппроксима- 
ции, то уровни о; находят по таблице нормального распределения 
(как, например, и- или иу-критерий). Если пользуются Х2-критерием, 
то следует использовать подробную таблицу процентных точек х2- 
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распределения для числа степеней свободы, меньших 10, и восполь- 
зоваться аппроксимацией, данной в & гл. 1. Аналогично следует пос- 
тупаться в тех случаях, когда критерий основан на Ғ-распределении. 


с. Пусть Ү;, Ү, ..., Ү,-- независимые, несмещенные оценки какого- 
либо параметра |; У,, И., ..., И, — дисперсии этих оценок, т.е. квад- 


раты их статистических ошибок. Тогда средневзвешенная оценка это- 
го параметра (с минимальной дисперсией) такова: 


(15 +1/У,+...+1/,) 


с дисперсией 


1 
Кс 2 ы ыса ор 
,О (уи+ Ми ++ МИ) (Мапіу, 1985]. 


Если относительно оцениваемого параметра можно высказать 
нуль-гипотезу о том, что ц = 0, то суммарный тест значимости 
основывается на величине У2//у, имеющей х2-распределение с одной 
степенью свободы. Если У2/У у, превышает пороговое значение, то па- 
раметр отличен от нуля. Этим параметром может быть, например 
корреляция признаков, неравновесие по сцеплению и т.п. й 

Если тест указывает на незначимость, то рассуждения здесь те же 
что и в предыдущих пунктах. Если же нуль-гипотеза значимо откло- 
няется, от это означает, что в среднем оценки Ү;,...,Ү;ненулевые. При 
этом можно дополнительно протестировать гетерогенность этих 
оценок, а именно, если величина 

(6-7) (ю-?) 

Х“------ + ++ 

и и У, 


т табличное значение х2-распределения с К-1 степенями 
свободы, то оценки Ү; гетерогенны (на соответствующем уровне зна- 
чимости). 


Объем выборок 


Многолетние популяционные исследования позволяют судить о 
возможных частотах фенотипов в разных популяцих или частях 
единой популяции. При этом можно заранее оценить, какого объема 
должны быть выборки, чтобы на заданном уровне значимости тес- 
тировать эти различия. 

Пусть о — заданный уровень значимости. Поставленная задача 
строго формулируется следующим образом. Каким должен быть 
объем выборки М, чтобы иметь 1 — В шансов обнаружить значимое на 
уровне а различие между выборками, взятыми из группировок с ге- 
неральными значениями частот фенотипов т, и т 7 Следующая таб- 
лица позволяет оценить требумые объем выборки для практически 
полного спектра частот |Сазаргапйе еі а!., 1978]. Например, чтобы с 
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Таблица 16 


Объемы выборок, необходимые для 90% - 


на уровне значимости 0,05 


й надежности выявления азличий меж пировками с гене н ТОТ > 7 
д ду груп Р раль ыми частотами 
Р 
но 2 


Разница частот (1 —тп2) 


и 10 


13 
15 
16 
16 
16 
16 
15 


15 
17 
18 
18 
18 
18 
18 


18 
20 


33 25 21 


42 
52 


60 


57 
74 


89 
119 


142 


165 
232 
289 


0,05 504 


0,10 
0,15 


10 
10 
10 


11 
11 


12 
12 
12 
12 
12 


1 


31 25 


39 
45 
47 
51 


782 
1024 
1231 


23 


27 
30 
31 


34 


87 

97 
106. 
111 
115 
116 


115 


11 


23 


36 


162 


338 
377 


0,20 
0,25 
0,30 
0,35 


0,40 


11 


24 


36 


71 


178 


1402 


10 


24 


31 


53 


72 


190 
200 


202 
02 


408 


1538 
1640 
1710 


23 


31 


40 


53 


72 


428 
445 


о 
жө 


72. 
72 


90%-ной надежностью выявить на уровне значимости 0,05 различия 
между двумя группировками (табл. 16.), в которых частоты данной 
морфы т; = 0,30 и по = 0,25, необходимы случайные выборки около 
1,5 тыс. особей из каждой группировки (точно 1402). 

Для произвольных значений уровня значимости о и вероятности 
выявления различий 1—В (мощности теста) объем выборки можно 


оценить следующим образом [Сазаргапае ег а1., 1978]. Надо вычислить 
вначале величину А: 


А= (дот -т) + ову (1- тъ) + по (1 Т“). 


где т = (п, +12)/2; величины и, и изв находятся по таблицам нор- 
мального распределения для соответствующих значений вероятнос- 
тей (а и 2В). После чего необходимая численность (объем каждой вы- 


борки) определяется по формуле 
2 
А+ +4, - >И] 
2 
Де = по) | 


Пример: пусть частоты изучаемой морфы колеблются в популя- 
циях около 0,6. Каковы должны быть объемы выборок, чтобы выявить 
различия между двумя популяциями, частоты морфы в которых 0,55 
и 0,65, на уровне значимости 0,05 и чтобы вероятность уловить такие 
различия была 0,8 (80 шансов из 100)? Решение: имеем ті = 0,55; по 
= 0,65; Т = (п; +по)/2 = 0,6; а = 0,05; 28 = 0,4. Из таблицы нормального 
распределения находим: и, = 1,96; изв = 0,84. Отсюда А = 3,76 и окон- 
чательно М = 396. Из точной таблицы имеем М = 428. Следовательно, в 
каждой выборке должно быть как минимум 400—450 особей. 


5 4. КЛАССИФИКАЦИЯ ВЫБОРОК 


Изучение генетической структуры подразделенных структуриро- 
ванных популяций, а тем более исследование популяционной орга- 
низации вида требуют сопоставления друг с другом целого ряда вы- 
борок, которые представляют различные группировки, входящие в 
состав изучаемых популяций. Первым этапом их популяционно-ста- 
тистического анализа является тестирование гетерогенности, чему 
был посвящен предыдущий параграф. Как правило, гетерогенность 

обнаруживается (суммарно по всем данным или для определенной 

группы выборок). И тогда желательно получить оценки этой гетеро- 

генности, классифицировать выборки по определенным характерис- 


тикам, выделить группы сходных и несходных выборок. Соответству- 
ющим методам и посвящен данный параграф. 
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Стратификация 


Стратификация — это разделение множества элементов на группы 
по априорно заданной схеме. Применительно к нашим задачам под 
априорно заданной схемой имеется в виду заранее составленная 
классификация выборок (точнее, без учета результатов сопоставле- 
ния выборок друг с другом). Основой стратификации могут быть 
представления о соподчиненности тех группировок, откуда были 
взяты выборки, в частности учет подразделенности популяции. Нап- 
ример, можно провести стратификацию по эколого-географическому 
принципу; вначале выделить группы выборок, соответственно их 
принадлежности к различным крупным географическим районам. 
Затем каждую из этих групп выборок можно подразделить на под- 
группы, отвечающие различным экологическим условиям в этих рай- 
онах, а их, в свою очередь, можно отнести к разным участкам сбора 
материала. Указанное распределение выборок содержит три страти- 
фикационных уровня. Вообще же число таких уровней не ограничено. 
Наиболее распространенной является иерархическая классификация. 
Только ей мы и уделим внимание в этом параграфе. , 

Иерархическая стратификация. Согласно выбранной схеме 
стратификации, все выборки разбиваются на группы и подгруппы. На 
рис. 28 изображена трехуровневая система иерархической классифи- 
кации, соответственно которой 19 выборок разбиваются прежде всего 
на две крупные группы: 1 — выборки от 1 до 14; П — выборки 15—19. 
Каждая из них разбивается на подгруппы (Аи В — для группы І, нет 
— для группы П). Те, в свою очередь, подразделяются на субгруппы 
более низкого уровня (а, В, ..., ?, каждая из которых включает одну 
или несколько выборок. Такая стратификация обычна для популяци- 
онных исследований, например выборки группируются по локаль- 
ностям, локальности — по районам, районы — по регионам и т.д. — 
путем укрупнения группируемых выборок. 

Для того чтобы оценить значимость гетерогенности выборок на 
разных уровнях стратификации и на разных ее ветвях, можно вос- 
пользоваться свойством аддитивности критерия С (возможностью 
его разложения на компоненты). Суть такого разложения заключа- 
ется в том, что вначале оценивается гетерогенность на самых ниж- 
них ветвях стратификационной иерархии. Затем выборки, входящие в 
одну группу низшего уровня, суммируются; после этого по сумми- 
рованным данным оценивается гетерогенность на следующем уровне 
стратификации и т.д. 

Рассмотрим для примера стратификацию, указанную на рис. 28. 
Пусть исследуется признак с двумя вариантами (т.е. т=2в обоз- 
начениях $ 3 этой главы). Тогда последовательность анализа сле- 
дующая. Вначале оценивается гетерогенность внутри шести групп 
выборок (1—3, 5—7, 8—9, 10—14, 15—16, 17—19) с числом степеней сво- 
боды соответственно 2, 2, 1, 4, 1, 2. Затем данные по выборкам в каж- 
дой группе объединяются (суммируются), образуя суммированные по 
группе "выборки": а, 4 (эта выборка ни с какой другой не объединя- 
ется), Б, с, 4, е, ў. После этого осуществляется тестирование гетеро- 
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123 4 597 8 910112 13 19 15 16 


Да 26 парархинесиая стратификация выборок 
‚ 2,... 19 — отдельные выборки (группировки); а, 6,...,Г — первый уровень страти- 


фикации выборок; А, В — вто 
рой овень Т ; == 
Т ур стра ификацин; 1, П третий уровень 


17 16 18 


генности “внутри” трех групп: а-4, 5-4, е- со степенями свободы 
соответственно 1, 2, 1. Затем после очередного объединения срав- 
ниваются группы А и В (число степеней свободы — 1). И наконец 
после завершающего суммирования (А с Виес б сопоставляются 
объединенные "супервыборки" Ти 11 (1-я степень свободы). 
Разложение С -теста. Замечательным свойством С -теста являет- 
ся то, что все критерии, получаемые на разных уровнях стратифи- 
кации, статистически независимы и в сумме составляют исходно 
значение С для всех выборок. Иными словами, для рис. 28 имеем: : 


Са-19) = Са + 
+ Сд-в) + 
+ Сад) + Сыд+ Сер + 
+ Са-з) + Сол + Св-9) + С(10-14) + Саѕ-16) + С(17-19). 


В А 
е 
м частным тестам равна 
числу степеней свободы исходного суммарного критерия т.е. Е – 1 
Для рис. 28 &-1= 18=1+1+1+2+1+2+2+1+4+1+ 2 М | 
Если вариантов признака несколько (т > 2), то схема остается 


прежней, вначале тестируется гетерогенность всех выборок: 


Е т М;; 
СЕ2У УМ, іп--У- или 
ізгі | Мп) 


К т к т 

6-22 Уму тм; - УМ: М; - Уп; ши, + МЛ) 
1=1)=1 ігі Ј=1 4 | 

139 


Величина С распределена примерно по 2 с (т-1) (К- 1) степе- 
нями свободы. Затем проводится ее разложение, как указано, а все 
степени свободы умножаются на (т- 1). 

Представленные методы легко реализуются на компьютере и дос- 
таточно надежны. Возможное ограничение — это обычное требование 
72-критерия: ожидаемые численности -- не менее 5--10, минимальная 
(одна) -- ДО 0,5. Ясно, что эти требования существены лишь на самом 
нижнем уровне стратификации; на верхних уровнях численности 
суммируются и указанные требования перестают быть ограничитель- 
ными. 

Очень существенным в предлагаемом методе является независи- 
мость частных критериев, в сумме составляющих С. Это позволяет 
применить к их анализу принцип суммирования критериев, указан- 
ный в 8 3 этой главы, и выявить значимо гетерогенные участки стра- 
тификационного древа. Следует иметь в виду, что при небольшом 
различии выборок отдельные тесты для самого нижнего стратифика- 
ционного уровня чаще всего могут оказаться незначимыми (на рис. 28 
это тесты Сз), б(5-7» Св) и ДР.). Но связано это может быть в 


первую очередь с небольшими объемами выборок, а не с их 
низких 


гомогенностью, Хотя меньшая гетерогенность на 
стратификационных уровнях ВО многих случаях кажется 
естественной. 


Если изучается не один, а несколько признаков и они независимы 
(или по крайней мере слабо коррелируют друг с другом), то анализ · 
гетерогенности (в том числе и разложение на компоненты по уров- 
ням стратификации) можно производить вначале отдельно по каждо- 
му признаку. Затем на каждом участке стратификации можно сумми- 
ровать тесты, полученные по разным признакам, и проанализировать 
их аналогично рассмотренной схеме. Это позволит, с одной стороны, 
оценить разные признаки по характеру дифференциации, поскольку 
одни признаки могут лучше дифференцировать высшие уровни стра- 
тификации, другие — низшие. С другой стороны, суммирование кри- 
териев повышает их мощность, что особенно необходимо для низших 
уровней иерархии. 

Указанное разложение можно представить по-иному, например в 
виде суммы тестов разных уровней стратификации: 

Сало) = Са. + Си, в + Сер + Са, 19), | 
где члены правой части представляют разные уровни: 

Са, 19 = Са-з) +667 + Св + Спол + Саѕ-16) + С (11-19). 

су=2+2+1+4+1+2 = 12, 

Сал Са-4) + Сь-0 +С е сУ- 1+2+1 =4. 

в данном случае С (лв) совпадает с Св, а Саш — С Сал: 
указанное представление тестов позволяет выявить гетерогенность, 
вносимую в целом каждым уровнем стратификации. 

Метод Нея—Чакраборти. Рассмотренный подход к выявлению 
гетерогенности разных стратификационных уровней удобен тем, что 
здесь возможно надежное статистическое тестирование значимости 
гетерогенности любых участков стратификационного дерева. Однако 
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он не позволяет в аддитивной форме колич 

Е ественно предст - 
и дарена песине на количественную ная БИЕ 
а а араты метод Нея--Чакраборти Ісі, 1973; 
зА У, ЕЕ ошу ег а1., 1982], позволяющий провести раз- 
е на ро разнообразия популяции по уровням 
фикации рис. 28. Оборище и, ео 
дерева (как исходных, таки есе тит 5422. 


зиготность по данн 
ом у 
у локусу, определяемую как Н =1- У рг, где 
фр? 
р; — част Й с 
оаа аллелей данного локуса; Н, — теоретическую гетерози 
2. оу (по данным всех просуммированных выб 
численности); М — суммарную численность всех Қы 


борок; Н — усредненную т тич гет Т - 
з 1, П) У 
“1 И. М еорети ескую гетерозиготность "выбо 


1 
Наш = = 
(1,1) пощи + МН), 


где М и М, -- числе о сти о группировках Ги П соответствен- 


1 
Нав) = 7 (МАНА + МвИв + МН. + МН р). 


Здесь отметим 
‚ что в рассматриваемом 
а С методе каждъй 
е елее все выборки. При отсутствии раат ен 
нук 5. подразделения в каких-либо ветвях дерева сле- 
следующее подразделение. Аналогично получим: 


1 
Н = — 
(а,7) = у (МаНа + МаН + МН, + МН. + МаНа + М.Н, +М;Ну). 
Инаконец: 


1 
Н Басы; 
(1,19) М (МІН, + МН» + МаНз Ж МАН... Ма аз + МоН). 


Ц 
р д 


Р; = Н; – ) 
р ДЫ > Вал) = Нап) - На,в) 
(лв) = Н(д,в) – На,» Шал) = На) - Нал); 
обозначим также Ра 19) = На 19) 
о ў ,19). 
аким образом, общее генное разнообразие популяции представ- 


ляется в виде 


Н: = Рт + Вап) + ИХ А,в) + Ра, ӯ) + Пі119)- 


Следует поясн 
ит 
ь, что член Гц, 19) как усредненная теоретическая 


гетерози 
р готность исследованных выборок оценивает в среднем сте 
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пень различий между особями в пределах выборки. Как правило, 
именно этот член имеет максимальную величину среди прочих чле- 
нов разложения. Таким образом, основное генное разнообразие сос- 


редоточено в пределах выборки. | 
В качестве коэффициентов генной дифференциации субгруппиро 
вок рассматривают относительные величины С.=0);/Нт, сумма 


которых составляет 1: 


б.,бапу»С(л. в) Ска, 019): 


Чаще всего величины С предетавляют не в долях, а в процентах — 
100 6%. Если изучено несколько локусов, то можно вычислить межло- 
кусную ошибку средних коэффициентов генной дифференцации С 
ГСпакгаопу, 1974]: 


2 2 1/2 
г-0 6, обор) 
с >: н? ГН 
где Нр- Тун, - среднелокусная общая гетерозиготность; 


решу среднелокусная степень дифференциации для данного 


1, 
Е П Р 
уровня стратификации; 51, = ТУН): = ои обычным 


1 —\2 
образом подсчитанная дисперсия, например У(р)= Рае У(р - 5) г 


Ковариация Соу (р, На) также вычисляется обычным образом как 


== У(р - Бүн, - Нл). В этой формуле С - Б/ Нт; выражение для 5с 
1-1 


получено на основе общего принципа, указанного в $ 3 гл. 1. Недос- 
татком рассмотренного метода является предположение о случай- 
ности выборки локусов |Спакгаропу, 1974], вследствие чего нередко 
выборочные ошибки 5с; велики, а соответствующие величины С срав- 
нимы с 5с и тестируются как незначимые, хотя обычные критерии мо- 
гут указывать на значимую гетерогенность. Указанный метод оценки 
генной дифференциации представляет собой развитие Е-статистик 
Райта. Имеются и другие методы, обобшаюцие идеи С. Райта. Один из 
них |УҮсіг, Соскетат, 1984] обладает интересными свойствами, но 
ввиду некоторой сложности здесь не приводится. 


Кластеризация выборок 


При стратификационном подразделении выборки объединялись т 
группы по априорным соображениям. Рассмотрим теперь ааа. 
упорядочения выборок, т.е. разделения их на группы соответственн 
степени их фено- и генотипического сходства. Применительно Е 
анализу выборок их разделение на группы и подгруппы осуществля 
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ется на основе матрицы сходства В или матрицы расстояний $: 


1 72 ** ПЕ 0 512 °“. 5 
г. 1 е г 5 0 --- 5 
В = 21 2% ; 8 21 2 | 
а "2-1 5 бон 0 


где ќ — число выборок; г; — показатель сходства между выборками і и 
ђ 5 — расстояние между ними. Обычно меры выбирают так, чтобы 
сходство тождественных выборок было равно 1 и соответственно 
расстояние между ними равно 0. Процедуры, о которых пойдет речь, 
в отличие от стратификации устанавливают отношения соподчинен- 
ности выборок и групп выборок апостериорно, т.е. после анализа 
матриц К или 5 (при стратификации эти отношения задаются 
априорно вне зависимости от результатов анализа этих матриц). 
Прежде чем обратиться к ним, рассмотрим различные методы опреде- 
ления матриц сходства и расстояний. 

Меры сходства и расстояния. В генетике популяций вводи- 
лись различные меры близости популяций по частотам аллелей — 
генетические расстояния. Наряду с генетическими расстояниями 
используют показатели сходства. Эти показатели сходства и расстоя- 
ния связаны. друг с другом и всегда можно трансформировать 
расстояние в сходство и, наоборот, сходство в расстояние. 

Пусть имеются две выборки объемов М; и №. Обозначим 
Рі» р2, >>» Рт — частоты аллелей по данному локусу в первой выборке; 
41» Фо, >>» йт — частоты аллелей во второй выборке (т — общее число 
аллелей в выборках). 

Наиболее употребительным в популяционной и эволюционной 
генетике является показатель сходства по Нею: 


ӘРИНЕ 


т т т 
где Јр = У, рі; Ја = У4?; Тра = У, ри, 
іі і-1 іг 
где Л, -- теоретическая гомозиготность в первой выборке, тракту- 
емая в данном случае как идентичность аллелей (вероятность того, 
что случайно выбранные особи имеют одинаковые аллели); Л, — иден- 


тичность аллелей по второй выборке; Ура — взаимная идентичность 
обеих выборок. Если исследуется не один, а [. локусов, то 


Е 1 2 ҮЗ 12 

где /р- т 27, 2% 27,27 я У Јај — усредненные по 
іш ін - 

всем локусам величины идентичности аллелей. 
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На основе величины г вводится генетическое расстояние М. Нея: 


Шы 1 - т 
р=-шиг=- Ура +2087, +187а) 


Статистическая ошибка 0: 5р = ү У(р) ‚где 


Е 1, 
У») Ум хи ра) Х(7 Јл) 
са аа үл ылы Е 
у(р)--2| (27) (272) 7: РАД 
Е 
У Соч, в.) 
Весо АЕ и для каждого ): 
(77 а 
1 15 р2а; + (М 1$ р + Ура + 
(ы) = м: (м - ТЕрі 4 2 = 4 97 і 


По-видимому, оценки генетических расстояний, полученные на аа 
нове этого показателя, наиболее подходящи для задач межвидов а 
сравнений по частотам аллелей при генетической дивергенции видо 
на основе нейтральных или почти нейтральных замен. . 

Другой часто используемый показатель сходства основан на угло 


вом преобразовании частот 
т 
ге ХҮР- 
ігі 
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Этот показатель применим не только для анализа частот аллелей, 
нои втех случаях, когда р; и д; — частоты фенотипов. 
На основе показателя гвводятся различные меры расстояния: 


2/2 
р -2У2 п, |СауаШш-бГогга, Едууагдв, 1967], 
т 


Р, = (агссоз )2 (Вһайасһагууа, 1946], 
Ру=1п ғ [Сопзапазе-Уезегтапи, 1972], 


Рд = 8(1- ДЕ У г.) +У а) [Еамагіѕ, 1971]. 
ет сет 

Величина г используется и в других мерах |Сауаш-5Гогга, 1966; Ма- 
лютов, Пасеков, 1971]. 

Показатель г оценивает долю общих морф (фенотипов, аллелей) в 
сравниваемых выборках (морфа номера і общая, если она имеется в 
обеих популяциях, т.е. р; > 0, 4; > 0). Если морфа не является общей, 
то она не вносит вклада в величину г; если частота одинакова в обеих 
популяциях, то ее вклад в величину г равен общей частоте этой 
морфы; при р; * 4; вклад морфы і в величину г является промежуточ- 
ным между р; и 4; Формула для статистической ошибки этого пока- 
зателя достаточно проста: 


5, = А 
ее, 
+1 Ро-” | 


где У(г) = есе 107 
4 2№ 23, 

где р--сумма частот морф 1-й группы, не представленных во второй 
группировке; до — сумма частот морфа 2-й группировки, не представ- 
ленных в группировке 1 [Животовский, 19821. 

Если исследуется несколько признаков или локусов, то суммарный 
показатель сходства оценивается усреднением отдельных величин 7, 
>. ...» ША 


В качестве расстояния удобно взять, например: О, = Іп 7.” 
Статистические ошибки ги О, следующие: 


1 1/2 
5; = (И + Ю+...+И.) / , 
где У; — дисперсия оценки ғ; для признака номера 7 
1 
5р = РИД 
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Таблица 17 
исходные данные для оценки корреляции профилей частот 
Фенотипы по [-му 
2-му 
пы по 1-му Фенотипы по 
еа признаку признаку 
Выборка жа 
А142 “Ам В! В2 `` Вл) С1С2 тт, 
1 а) 
аз Ф ШЕ) ...Р 
0 0) р р ; 22 
у РР Раа Вар“ Рал Тар, М 
| 2 0) 
2 2) 2 ВЭ рд... р 
2 (2) 2 р А АИ 
2 В 1712 Б 1т ЕЕ 77 2т, Е Г, 
2) (0 
Ю (ы) Рр? Р р 
(7) % ю Ы р А 5 
А Сид ә” Р ту в 2 то Баты) 
А Е РА Ра СР РР“ Ре, 
РыР 2. Р21Р22 2то 
Среднее е 
ЕА : добро? 9204, тр, 
Дисперсия 2102077 с ту 021922 2т, 194, 
дства г: 


хо 
Укажем еще возможные показатели расстояния Рис 


т 2 
Ур; то 
т гі _ КЕ 
ре Ур) п= 1 = о г) ліңр 4: 
а: УР +4?) 


рассмотренные в работах [бапевут, 1953; Недпск, 1971; Корегѕ, 1972; 


Животовский, 1979; и дрі. 
Приведем теперь иной 
от вы 

ляции профиля част 
леля) подсчитывается его средняя частот 


показатель сходства, основанный на корре- 


па (ал- 
табл. 17). Для каждого феноти 
аа а и дисперсия по всем К 


въборкам: А 
А 
е ЕС ЕР ГЕС 
9-х ге к-1 24р) | 0) 


(5 
Я — заменяется на р ;; 
После этого каждая частота р; нормируется — за и 


по формуле 


ӘЙ = (ы? Е Ру) бо: 
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Тогда сходство выборок номеров ѕ и 1 определяется как коэффици- 
ент корреляции р: 
Ур а, про 
Ри- —=———— и 
2 2 2 2 
ы --(3 2 ШЕ 
(09) тр) (07 = 
гу 402) 


где т-- обшее число исследованных фенотипов (аллелей): 
1 
Б тө). = (5 
т=т +то+...+тг; ГА ) == 
ісу 


— среднее значение преобразованных частот для выборки номера 5 
(аналогично обозначение для выборки номера 0). Величину р можно 
оценить не только с помощью коэффициента линейной корреляции; 
он часто неудобен, ибо не является робастным. Лучше использовать 
ранговую корреляцию, а еще лучше коэффициент корреляции, осно- 
ванный на порядковых статистиках (см. гл. 4). 

Показатель р дает совершенно иную характеристику сходства вы- 
борок, чем все рассмотренные показатели ғи Р (которые, кстати, во 
многом подобны друг другу). Если все ғи оценивают близости 
фенотипических распределений, а г = 1 (соответственно О = 0) при 
совпадении профилей частот фенотипов в сравниваемых выборках, то 
р=1 при *параллельности" этих профилей. Если есть локальный 
отбор, приводящий к различиям в частотах фенотипов и аллелей, то 
такой параллелизм может объясняться действием миграции. Значит, 
показатель р может отражать миграционные процессы в большей сте- 
пени, чем предыдущие показатели, которые с основном оценивают 
локальные различия. По этой причине Б.А. Калабушкин предложил 
сводный коэффициент сходства К, комбинирующий показатели ги 
р: К =7еР!. Мы предлагаем его модификацию: 


Р = те (р-1) А 


где параметр 0 следует подбирать исходя из условия соизмеримости 
вкладов этих двух показателей в величину К (при Ө = | вклад рв диф- 
ференциацию, как правило, значительно больше чем г; вероятно, 0 
должно быть меньше). 

Кластеризация и ординация выборок. Современные методы 
классификации объектов достаточно развиты и подробны, поэтому 
весьма затруднительно в одном пункте детально описать их. Укажем 
на книгу С.А. Айвазяна и соавторов [1989], в которой обсуждены мно- 
гочисленные направления, идеи и методы классификации данных. В 
связи с теми вопросами, которые возникают в популяционных иссле- 
дованиях, мы укажем на различные подходы в классификации выбо- 
рок, которые чаще всего используются в популяционной биологии 
при наличии матриц сходства или расстояния. 

Первый из них связан с иерархической классификацией (кластери- 
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7819 3 165028 
Рис. 29. Дендрограмма 
Рис. 30. Проекции выборок на плоскость главных компонент ѓи П 

Точки 1, 2,... — выборки 
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зицией) выборок, при которой достигается наглядное представление 
о соподчиненности объектов (выборок) в виде иерархически 
упорядоченной дендограммы (рис. 29). Методы их, в частности 
широко используемые агломеративные процедуры (при которых пос- 
ледовательно объединяются наиболее сходные выборки или группы 
выборок), давно описаны [Дюран, Оделл, 1977]; имеются различные 
компьютерные программы кластеризации в ряде статистических 
пакетов. Хотелось бы обратить внимание на то обстоятельство, что 
иерархическую классификацию можно обоснованно применять лишь 
в том случае, когда исследователь уверен, что иерархическая древо- 
видная структура естественным образом описывает изучаемые груп- 
пировки. Следует подчеркнуть, что древовидные структуры филоге- 
нетически отвечают последовательной дивергенции группировок и 
дальнейшим их независимым друг от друга эколого-генетическим 
преобразованиям. В частности, предполагается отсутствие миграций 
между группировками. Таким образом, иерархически упорядоченная 
кластеризация может хорошо описывать соотношения лишь между 
таксономическими единицами видового и надвидового уровней. Од- 
нако она никак не может представлять внутривидовую популяцион- 
ную структуру, если составляющие ее группировки взаимодействуют 
друг с другом, особенно если они связаны миграционными потоками. 
Поэтому в популяционных исследованиях следует применять ме- 
тоды, в которых структура подразделения выборок не задавалась бы 
априорно. 

Для наглядного представления выборок в пространстве признаков 
по данным о матрицах расстояния часто используют методы шкали- 
рования, которые не связаны с априорным представлением о харак- 
тере соподчиненности выборок. Опишем один из них — метод метри- 
ческого шкалирования. Пусть 2 = (а), іј = 1..... к, — матрица 
расстояний между выборками. Обозначим 


1 к 
4--рУХф. 
і п = 
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где 4 — среднее значение квадратов расстояний по всей матрице 
сходства, включая диагональные элементы; а; — среднее их значение 


в і-й строке матрицы О; а; — среднее в /-м столбце. Введем новую 
матрицу В -(5;), элементы которой определяются по формуле: 


112 
Б; - 2(<% + 4. + а; +. а), 

Наконец, определим главные компоненты матрицы В, т.е. ее собст- 
венные векторы. Пусть 
“др, й4) 


Ь - (Бі, >, Б. . .. КЛ)? 


а = (1, а, аҙ,.. 


— первые главные компоненты, т.е. собственные векторы с макси- 
мальными собственными значениями (алгоритмы их определения да- 
ны в 53 гл. 1). Тогда можно построить в пространстве Ти П главных 
компонент проекции выборок (рис. 30). Их взаимное расположение 
позволяет нам предварительно выявить кластеры выборок, если они 
есть. Можно не ограничиваться первыми двумя главными компонен- 
тами, а вычислить, например, третью главную компоненту и рассмот- 
реть проекции выборок на плоскости І, Ши П, Ш. 

Метод шкалирования дает очень наглядное и во многом 
полное представление о наличии или отсутствии четких кластеров. 

Можно определить главные компоненты непосредственно по мат- 
рицам сходства В; нередко результаты качественно те же, но лучше 
делать преобразование матрицы расстояний Д в матрицу В. Правда, и 
здесь есть ряд трудностей, поскольку матрица В может не быть поло- 
жительно определенной. В таких случаях следует при вычислении Б,; 
предварительно увеличить все расстояния 4; на одну и ту же конс- 
танту с или провести более сложный анализ, связанный с неметри- 
ческим шкалированием, при котором расстояния 4; подвергаются 
нелинейным преобразованиям [Айвазян и др., 1989]. 


Глава 3 


МОДЕЛИ 
ПОПУЛЯЦИОННО-ГЕНЕТИЧЕСКИХ 
ПРОЦЕССОВ 


Предыдущая глава была посвящена, по сути дела, методам анализа 
"статики" популяции, и статистические подходы здесь были наиболее 
адекватными. Все же изучение статической фенотипической 
структуры популяций (оценка частот фенотипов и аллелей, различий 
между ними, кластеризация выборок и т.д.), сколь бы плодотворно 
оно ни было, никогда не будет завершенным без представления о 
факторах динамики, обусловливающих эту структуру: отборе, 
миграциях и Др. Действительно, фенотипический состав популяции 
во многом отражает ее генетическое разнообразие, поскольку 
частоты генов и генотипов реагируют на действие этих факторов. 
Динамическим аспектам популяционно-генетического анализа и 
посвящена данная глава. В ней с динамических позиций обсуждено 
понятие популяции и рассмотрены популяционные динамические 
уравнения, применение которых здесь адекватно задачам иссле“ 
дования. На их основе даны принципы анализа и трактовки данных 
частот генотипов внутри выборок и генной дифферанциации между 
выборками. Параграфы 1 и 2 посвящены теоретическим аспектам 
обсуждаемых проблем и могут быть опущены при чтении. 


$ 1. ПОНЯТИЕ ПОПУЛЯЦИИ 


Чтобы оценить ‘динамические процессы в популяциях, следует 
знать, какими группировками особей мы должны ограничиться В 
исследованиях. Нельзя разбить группировки на части и исследовать 
каждую часть в отдельности, если процессы в этих частях взаимо- 
связаны. Что же следует выделить в качестве самостоятельных груп- 
пировок? По сути дела, это "вечный вопрос" популяционной биоло- 
гии: что есть популяция? Мы сейчас обсудим это теоретически, фик- 
сируя внимание на динамических сторонах проблемы. 

Понятие популяции является первичным В популяционнои 
биологии. Вместе с тем нет единого определения термина "популя- 
ция" — существует множество его формулировок. С точки зрения 
научной методологии формулировка очень важна, ибо она указывает 
на существенные стороны определяемого объекта. Поэтому дать 
определение — значит указать то главное, что характеризует по- 
пуляцию как самовоспроизводящую независимую группировку. 

Для перекрестнооплодотворяемых организмов известно следую- 
щее определение Н.В.Тимофеева-Ресовского: "Под популяцией 
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понимается совокупность особей определенного вида, в течение 
достаточно длительного времени — (большого числа поколений) 
населяющих определенное пространство, внутри которого 
практически осуществляется та или иная степень панмиксии и нет 
заметных изоляционных барьеров, которая отделена от соседних 
таких же совокупностей особей данного вида той или иной степенью 
давления тех или иных форм изоляции а 

в этом очень сбалансированном определении есть все, что отли- 
чает и характеризует популяции многих видов животных и расте- 
ний. Оно указывает на основные факторы формирования популяции 
как единицы внутривидового подразделения: время существования, 
условия среды, “внутренний" генный обмен, изоляция. Однако это 
определение многое оставляет неясным. Например, что значит “та 
или иная степень" панмиксии? По отношению к чему определять, 
велика или мала степень изоляции, чтобы считать изучаемую 
группировку поп уляцией? 

В то же время любой исследователь всегда для себя решает, какие 
группировки изучаемого вида ему следует выделить в качестве 
популяций. Что стоит за такой субъективностью и субъективность ли 
это? Нам думается, дело здесь в том, что каждый исследователь, гово- 
ря о популяции, вкладъвает в зто понятие сугубо свое (продикто- 
ванное задачами своего исследования) представление о независи- 
мости популяции, единстве ее генофонда, уникальности и т.п. Для 
одного исследователя зто может означать в первую очередь наличие 
четких генетических различий между группировками, для другого -- 
отсутствие иммигрантов, третий въделяет популяции по положению 
группировок в данном биогеоценозе и т.д. Например, рассматривая 
породу как основную единицу данного вида сельскохозяйственных 
животных Е.Я.Борисенко [1967] отмечает, что порода — это "целост- 
ная группа домашних животных одного вида, обшего происхож- 
дения, характеризующаяся специфическими морфофизиологичес- 
кими и хозяйственно полезными свойствами и определенными 
требованиями к условиям жизни, которые передаются по наследству, 
отличают ее от другой подобной группы и поддерживаются 
племенной работой". Здесь целостность определяется не только 
общностью происхождения, а главное, сходством условий разведе- 
ния и селекционных мероприятий. Как видим, для сельскохо- 
зяйственных животных в этом определении подчеркивается 
приоритет среды и племенной работы. 

Для природных популяций в одних случаях мерилом их 
генетического своеобразия является изоляция, в других = морфо- 
физиологические различия, нередко критерием служит единство 
местообитания. Соответственно этому различаются и частные опре- 
деления популяции. Таким образом, суждения о "единстве генофон- 
да" и "независимости" в каждом конкретном случае могут расхо- 
диться. 

Чтобы прояснить суть расхождений, будем рассуждать следующим 
образом. Представим себе некое полевое испытание, в котором выяв- 
лены две примерно равные по объему группировки особей данного 
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вида. Пусть эти группировки обитают в разных условиях среды, 
полностью изолированы от других группировок этого вида, отли- 
чаются друг от друга фенотипическим и возрастным составом, и 
пусть они связаны друг с другом миграционными потоками. Что 
являют собой эти две группироки? Разные это популяции или же это 
одна, хотя и гетерогенная, популяция? Очевидно, что существующие 
формально-логические определения популяции в принципе не могут 
ответить на этот вопрос даже в том идеальном случае, когда точно 
определены коэффициенты миграции между группировками, полно- 
стью выявлен гено- и фенотипический состав, точно оценены пара- 
метры среды и пр. 

На наш взгляд, дело здесь в том, что в этих определениях не отра- 
жены цель исследования и соответствующие этой цели определяющие 
эколого-генетические характеристики популяции. Поясним, что мы 
имеем в виду, на рассматриваемом теоретическом примере двух 
миграционно связанных группировок. 

Пусть цель исследования заключается в выделении таких субви- 
довых единиц, прогноз численности которых можно осуществить 
независимо друг от друга. При такой цели определяющей 
характеристикой популяции является ее численность.В связи с этим 
необходимо учитывать миграцию. Допустим, что коэффициент мигра- 
ции мал, скажем не превышает 1%. Тогда етественно считать каждую 
из обеих группировок независимой и каждой из них присвоить ранг 
популяции (по отношению к определяющей характеристике — 
численности). Действительно, столь малые (1%) миграции практи- 
чески не повлияют на динамику численности и ее прогноз, ибо прак- 
тическая погрешность в оценке и прогнозе численности гораздо 
больше 1%. 

Если же, например, миграции усиливаются до десятков процентов, 
эти две группировки уже следует считать единой популяцией (по 
отношению к той же определяющей характеристике — численности), 
единой все то время, пока динамика численности в обеих группи- 
ровках будет взаимозависима, т.е до тех пор, пока они будут обме- 
ниваться столь значительным количеством особей. 

Пусть теперь цель исследования иная, например оценка изменчи- 
вости по селективно нейтральным маркерам генов. Тогда определяю- 
щими параметрами уже являются частоты нейтральных или квази- 
нейтральных аллелей. Как известно [Сго\, Кітша, 1970], в случае 
нейтральности даже небольшие по интенсивности миграции (букваль- 
но доли процента) могут обеспечить взаимосвязь изменения геноти- 
пического состава этих группировок В длинном ряду поколений. 
Поэтому в микроэволюционном аспекте (по нейтральным генным 
маркерам, частоты которых в данном случае являются определяющей 
характеристикой) популяция здесь одна, она состоит из двух 
связанных группировок (даже если коэффициенты миграции малы). 

Целей исследования множество, и соответственно столько же 
будет заключений относительно того, что считать популяцией. 
Действительно, обсудим в рамках нашего теоретического примера 
еще одну цель исследования. Пусть одна из группировок подорвана 
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антропогенным воздействием. Цель исследования — выяснить, можно 
ли восстановить ее путем интродукции особей из другой 
группировки. При такой постановке задачи естественно отнести 
группировки к разным популяциям, если такая интродукция 
малоуспешна. С этих позиций отнесение группировок к одной или 
раным популяциям будет определяться теперь уже не столько 
миграционными потоками, сколько сходством или несходством их 
фенотипического состава и близостью условий среды. Например, 
обитающие рядом и связанные значительными генными потоками (за 
счет разлета пыльцы) суходольные и болотные насаждения сосны 
разительно отличаются друг от друга. Поэтому, несмотря на 
миграционную связь, нельзя их считать единой популяцией в рамках 
поставленной задачи, поскольку крайне неразумно восстанавливать 
суходол сеянцами болотной сосны. 

Ну, а если исследователя интересует микрофилогения вида и он 
оперирует временами в тысячи и десятки тысяч поколений? Что здесь 
считать популяцией? Ясно, что в этом случае нельзя рассматривать 
эти две группировки независимо не только друг от друга, но и от ря- 
да других группировок вида, поскольку необходимо обратиться к 
тем отдаленным временам, когда они генетически взаимодействовали 
между собой. 

Рассмотренные теоретические ситуации ясно показывают, что 
решение вопроса о том, является ли данная совокупность особей 
популяцией, должно апеллировать не только к статике, но и к дина- 
мике группировок, точнее — к динамике определяющих эколого-ге- 
нетических характеристик. Под определяющим мы в данном случае 
понимаем те характеристики, которые важны для теоретических или 
практических выводов данного исследования. В одном случае это 
может быть численность, в другом гено- и фенотипический состав, в 
третьем — возрастная и половая структура, плодовитость, смерт- 
ность, в четвертом — все это вместе и т.д. Кроме указанных, важным 
параметром является тот временной интервал, в течении которого 
рассматривается динамика определяющих эколого-генетических па- 
раметров. В соответствии с этим можно дать следующее "динами- 
ческое" определение термина "популяция": 

Популяция — это совокупность особей одного вида, в которой в 
течение всего данного промежутка времени определяющие 
эколого-генетические характеристики устанавливаются и изменяют- 
ся независимо от других группировок этого вида и которую нельзя 
подразделить на более мелкие независимые (в отношении 
определяющих эколого-генетических характеристик) друг от друга 
группировки. 

Каковы основные особенности, присущие популяциям в смысле 
этого определения? Рассмотренный только что теоретический 
пример показывает, что различные ответы на вопрос “что считать 
популяцией"" могут быть обусловлены сложной структурой объекта, 
например наличием нескольких различающихся группировок и обме- 
ном между ними. Именно такая структура и приводит к качественно 


различному типу динамики для разных эколого-генетических 
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параметров. Но раз это так, то изучить популяцию — это значит знать 
не только статику популяции (т.е. ее структуру и характеризующие 
ее параметры — см. гл. 2), но и ее динамику (т.е. направление и 
интенсивность изменения изучаемых параметров под действием 
различных факторов). 

Данное "динамическое" определение популяции подчеркивает 
важность становления и изучения популяции как естественноисто- 
рической структуры {Тимофеев-Ресовский, и др. 1973; Глотов, 19832, 
б; Семериков, 19821, как части биогеоценоза, изменяюцейся, эволюцио- 
нирующей или деградирующей вместе с ним. 

С позиций рассматриваемых в книге проблем обратимся к 


математическим моделям. 


82. ФАКТОРЫ ДИНАМИКИ 


Весь опыт естествознания свидетельствует о том, что математиче- 
ские методы описания позволяют проникнуть в суть наблюдаемых 
природных явлений и дать им наиболее адекватное причинное объ- 
яснение. Математически любые процессы рассматриваются в терми- 
нах динамических уравнений. Немало таких уравнений и в теорети- 
ческой популяционной генетике. Используя их, можно глубже 
понять характер и динамику протекающих в популяциях генетичес- 
ких процессов. Этот параграф — своего рода введение в теорию дина- 
мических уравнений популяционной генетики. В нем даны основные 
понятия, связанные с факторами динамики, их математическая фор- 
мализация и соответствующие уравнения. Мы ограничимся рассмот- 
рением простейших ситуаций, но и они дают весьма полное пред- 
ставление об основных идеях и принципах моделирования динамики. 
Какую роль в популяционной генетике играют такие модели и 
полученные на их основе выводы, мы постарались продемонстриро- 
вать в следующем параграфе этой главы. 


Понятие панмиксии 


Прежде чем непосредственно перейти к рассмотрению факторов 
популяционной динамики, обсудим понятие панмиксии, поскольку 
она является одним из допущений, лежащих в основе ряда динами- 
ческих уравнений. 

Определение. Под панмиксией часто понимают равновероятную 
воэможность скрецивания между любыми особями популяции. Одна- 
ко общеизвестно, что всегда есть предпочтение одних особей перед 
другими. В генетике популяций поэтому говорят не о панмиксии 
особей, а о панмиксии фенотипов (или генотипов). 

Группировка называется панмиксной (по отношению к данному 
признаку), если средняя вероятность скрещивания между особями не 
зависит от того, к каким фенотипическим группам, выделенным по 
данному признаку, они принадлежат. 

В-такой формулировке понятие панмиксии более приемлемо, ибо 
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оно ограничивает условие независимости скрещивания между любы- 

ми особями разного пола лишь данным признаком (или признаками) 
Пусть, например, население определенного поселка или района мыс- 
ленно разделено на четыре фенотипические группы по системе АВО: 
А,В, АВ и 0. Если выбор супружеской пары в этой "популяции" не 
зависит от того, к какой фенотипической группе они принадлежат, то 
это и означает панмиксию по отношению к системе групп крови АВО. 
В то же время по другим признакам, например росту, темпераменту: 
национальности, выбор супругами друг друга неслучаен и здесь пан- 
миксии нет. 

Модель панмиксии. Облечем данное вербальное определение 
панмиксии в математическую форму. Пусть Е — рассматриваемый фе- 
нотип (генотип); / — особи других фенотипов. Частоту особей Ё в 
группировке обозначим Р, тогда частота других будет О =1 ~ Р.В 
терминах частот данная группировка считается панмиксной по от- 
ношению к фенотипу Е, если частота скрещиваний Е х Е равна Р2, Ех 
ху — 2РО, ху — 02. В противном случае панмиксия отсутствует и 
подбор пар по этому признаку неслучаен. Если фенотипов несколько 
(Е, Е, ..., Ё,„), а их частоты Ра, Ро, ..., Ри, ТО мы говорим о панмиксии 
по отношению к этим фенотипам, если частота гомономных скрещи- 


р 2 
ваний Е; х Е; равна Р;, а гетерономных Ё; х Е; – 2Р;Р,. 


Данная модель панмиксии конструктивна в том смысле, что неслу- 
чайность скрещивания можно тестировать путем проверки указанных 
соотношений. 

Обсудим теперь один момент, которой будет часто повторяться 
при выводе уравнений динамики. Каковы частоты генотипов на ста- 
дии зиготы, у если у родителей наблюдается панмиксия по моноген- 
ному признаку? Рассмотрим простой двуаллельный случай. Пусть Р 
О и К — частоты генотипов АА, Аа и аа. Если нет гаметического 
отбора, то численность зигот АА будет складываться из всех зигот 
продуцируемых в скрещиваниях АА х АА (частота которых Р?), 
половины зигот от скрещиваний АА х Аа (частота которых 2РО) и 
четверти зигот, полученных от Аа х Аа (частота — О?) 
Следовательно, частота АА среди всех зигот | 


1 1 ЖУЫ 
р? +—-2РО+- 2-[р -0| -р2 
5 0 10 +50 ре 


1 
гдер-Р%- 
дер 20 - по определению, частота аллеля А. Аналогично 


доказывается, что частота зигот Аа равна 2р4, а зигот аа—4?. Анало- 
гичным образом доказывается, что в полиаллельном случае частоты 


2 
гомозигот А;А; равны р;, а гетерозигот А;А;-2рр), где р; -- частота 


аллеля А; у родителей. Таким образом, панмиксия по признаку при- 

водит к панмиксии гамет. 
Подразделенные популяции. Если говорить о границах приме- 
нимости понятия панмиксии, то важно обсудить следующий вопрос. 
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Известно, что любые популяции неоднородны: они и 
состоят из ряда группировок; те, в свою очередь, состоят ша зи 
субгруппировок и т.д. Что из них можно считать ее = | 
цей в смысле данного определения? Рассмотрим для простоть ры 
чай, когда популяция состоит из двух равных по ЕТ 
группировок. Обозначим Р; и Рз частоты в этих группировках 51 
фенотипа Е, и пусть О. О — частоты в них особей других пази, 
(р). Пусть подбор пары в "своей" или "чужой" группировке Уа и 
ляется независимо от фенотипа (т.е. каждая группировка внутр | 
панмиксна по отношению к данному признаку). Пусть эти груп | 
пировки не полностью перемешаны: вероятность выбора Ера 2 
би равна т и меньше, чем вероятность выбора особи из "своей" гру 


Вычислим теперь, какова доля 


1 
пировки (1-1), те. т< А 


скрещивании Ех Е в целом по популяции, и сравним ее с ожидаемой 
при панмиксии по отношению к рассматриваемому признаку. = 
Рассуждаем следующим образом. Относительная частота скрещ 


2 2 
ваний Е х Ё в каждой из двух группировок равна (1-т)Руи (1- т)Р, 


в 
соответственно. Так как численности группировок одинаковы, то В 
среднем частота скрещиваний ЕХ Е, осуществляемых внутр 


группировок: за - тв? + РА), а частота скрещиваний между осо- 
бями Е из разных группировок — тР.Ро. Следовательно, в целом по 


2 2 
популяции фактическая частота скрещиваний ҒхЕ,(1- т) КР. + Ро) / 
2] + тР|Р;. В то же время ожидаемая частота скрещиваний ЕХҒ при 


о => я 
Р Р, няя час 
условии панмиксии должна быть Р2, где Р = 24 1 Р) сред 


тота фенотипа Ғ в популяции. Приравняем полученные выражения: 
2 
1 (Р2 + Р2 А +Р | 
(1- т) ДА + 2 )+ тр, Е 1+2) 


ние 


1 
т=— или при Р; = Рр. Аналогичные 
которое выполняется или при г: ри Р! 


уравнения получим, рассматривая скрещивания Ехги ХА ЖЕТЕ 

Отсюда следует, что популяцию, состоящую из группиро о. 
но считать в целом панмиксной по отношению к данному ре ПЕ М. 
двух случаях: 1) когда выбор особей равновероятен по ме 
любым группировкам (если группировки имеют разную ч Я 
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а АА 


то равновероятность будет означать пропорциональность числен- 
ности); 2) когда частоты данного фенотипа в этих группировках оди- 
наковы. Рассмотренную модель панмиксии легко распространить на 
случай нескольких группировок и убедиться, что это заключение 
остается справедливым. 

Таким образом, заключая этот раздел, ‘следует сказать, что если 
панмиксия как равновероятное скрещивание особей едва ли реальна 
даже для относительно малых однородных искусственных популя- 
ций, то панмиксия как равновероятное (или близкое к нему) скрещи- 
вание по отношению к данным признакам явление реальное и встре- 
чается довольно часто. Именно поэтому в генетике популяций расп- 
ространены модели, в которых условие панмиксии (как случайного 
скрешивания фенотипов или генотипов) в той или иной форме 
присутствует, если только нет значительного ассортативного скре- 
щивания по данному признаку или инбридинга. 


А теперь последовательно рассмотрим факторы популяционно-ге- 
нетической динамики. 


Отбор 


Приспособленность генотипа. Все популяции генетически ге- 
терогенны, и между составляющими их особями имеется множество 
различий по самым разным признакам. Существуют различия и по 
приспособленности особей к условиям среды обитания: по жизнеспо- 
собности, плодовитости, половой активности и другим характерис- 
тикам, определяющим в итоге число половозрелых потомков. Более 
приспособленные особи — это те, что имеют больше шансов выжить и 
дать жизнеспособное и плодовитое потомство. 

Приспособленность особи определяется фенотипом в целом, т.е. 
комплексом морфофизиологических особенностей организма. Однако 
различия по приспособленности могут быть не только между отдель- 
ными особями. Они могут проявляться и между группами особей, 
классифицированными по одному или нескольким признакам. В гене- 
тике популяций внимание концентрируется не на приспособленнос- 
ти отдельной особи, а на приспособленности, усредненной по группе 
особей одинакового генотипа или фенотипа. Можно дать следующее 
определение. 

Приспособленность генотипа (фенотипа) — это среднее число по- 
томков, произведенных всеми особями данного генотипа (фенотипа). 

Данное определение не совсем строгое, поскольку среднее число 
потомков может быть разным в зависимости от того, на какой стадии 
жизненного цикла вести учет. Чтобы ввести однозначность, 
Дж. Б. С. Холдейн предложил при определении приспособленности 
учитывать родителей и потомков на одной и той же стадии онтоге- 
неза. Например, в качестве "точки отсчета" можно взять репродук- 
тивную стадию. Тогда приспособленность генотипа С оценивается 
как число половозрелых потомков, приходящихся в среднем на всех 
половозрелых особей родительского поколения с данным генотипом 
(или фенотипом) С. Но можно в качестве "точки отсчета" взять и дру- 
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гую стадию, скажем стадию зиготы, как это делают в ряде теоретичес- 
ких работ. В этом случае приспособленность генотипа С оценивается 
как число зигот, продуцируемых всеми особями генотипа С из роди- 
тельского поколения, но отнесенное в среднем ко всем зиготам гено- 
типа С (не только с учетом тех, что закончили цикл развития и дос- 
тигли половозрелого возраста, став родителями для следующего 
поколения, но и тех "несостоявшихся" родителей, что погибли на 
ранних стадиях онтогенеза). В том случае, когда условия среды в 
смежных поколениях одинаковы, ранги приспособленностей, оце- 
ненные для разных "точек отсчета" (а стало быть, и популяционно- 
генетические выводы), будут одинаковы. Например, если мы исполь- 
зуем оценки приспособленности, полученные для репродуктивной 
стадии, и делаем вывод о том, что аллель А элиминируется из попу- 
ляции, то этот же вывод мы получим, используя приспособленности, 
оцененные на стадии зиготы. 

Приведем поясняющий пример. Пусть исходное количество зигот 2 
родительского поколения равнялось 1000; 45% (450) из них прошли 


1 
ранние эмбриональные фазы, 3 из них (150) достигли репродук- 


2 - 
тивного возраста, а 3 последних (100 особей) вступили в скрещи 


вание. Пусть эти 100 особей продуцируют в среднем 15 зигот. Так как 
общее число зигот дочернего поколения равно 15-100 = 1500, а чис- 
ленность зигот 7 родительского поколения была 1000, то в данном 
случае приспособленность генотипа 7 (приспособленность зигот 2) 
равна 1500/1000 = 1,5. Убедимся, что тот же результат мы получим, 
если в качестве "точки отсчета" рассмотрим репродуктивный период. 
В самом деле, всего половозрелых особей родительского поколе- 
ния — 100, они продуцируют в среднем по 150 зигот. Если условия 
развития и роста неизменны, то всего половозрелых потомков будет 


100:15-0,45-5 = 225. Значит, в среднем на одну половозрелую особь 


приходится 225/150 - 1,5 половозрелых потомка, т.е. столько же, что 
и выше. Таким образом, оценка приспособленности здесь не зависит 
от выбора стадии онтогенеза. 

Приспособленность генотипа или фенотипа — это комплексный по- 
казатель, учитывающий среднюю жизнеспособность особей данного 
генотипа (или фенотипа), скорость их развития, репродуктивную спо- 
собность (в свою очередь, зависящую от успеха при спаривании, 
оплодотворяемости, плодовитости этих особей). Не исключено,что 
один генотип может "проигрывать" по одному из компонентов прис- 
пособленности, но значительно выигрывать по другому и в резуль- 
тате вносить больший вклад в следующее поколение, т.е. получать 
отборное преимущество. 

Постараемся формализовать указанные здесь основные понятия. 

Жизнеспособность эс генотипа С — это вероятность завершения 
онтогенеза зиготой С. 
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Половая активность гс — это вероятность скрещивания особей ге- 
нотипа С (с учетом кратности). 

Плодовитость ў; генотипа С — это среднее число зигот, продуци- 
руемых особями генотипа б. 

Для того чтобы представить приспособленность ус генотипа С че- 
рез указанные компоненты, удобно выбрать в качестве "точки отс- 
чета" стадию зигот. Для этого надо оценить среднее число зигот, 
“продуцируемых" зиготой С. Рассуждаем следующим образом. Веро- 
ятность выживания С — 1 с. Вероятность того, что С завершит онто- 
генез, а затем "войдет" в репродуктивную группу, — с/с. С учетом 
плодовитости среднее число зигот, приходящихся на зиготу С, — 
ос”ас- Таким образом, приспособленность ус генотипа С: 


ис = осоо. 


Этот результат мы получили, неявно предполагая отсутствие по- 
лового диморфизма по компонентам приспособленности. Но и при 
таких упрощающих допущениях этот результат интуитивно понятен и 
полезен. Поэтому далее мы везде употребляем термин "приспособ- 
ленность", имея в виду под ним как отдельные его компоненты, так и 
их совокупность. 

Относительная приспособленность. Обсудим еще одну сто- 
рону понятия "приспособленность генотипа", для простоты ограни- 
чившись лишь одним из компонентов приспособленности — жизне- 
способностью. Пусть исследуется потомство, полученное от скре- 
шивания гетерозиготных родителей Аа х Аа, и известно, что было 
произведено М зигот. Из этих М зигот к репродуктивной стадии оста- 
лось пддгомозигот АА, пла ГетерозиготАа и п.. гомозигот аа, 
причем их общая численность п = пдд + Пдд + Лаа меньше чем М, 
поскольку часть их погибла на одной из стадий онтогенеза. Если бы 
все зиготы выжили, то при нормальном мейозе ожидаемые 
численности генотипов АА, Аа и аа в потомстве были (с точностью до 
ошибки выборки) такими: М/4, №/2 и М/4 соответственно. Фактически 
же жизнеспособность генотипа АА: Әл, = пдл/(№/4) = 4илд/М, 
генотипа Аа: уда = пда/(№/2) -2пда/М, генотипа аа: таа = ПА4/(М/4) = 
4п.а/М Например, если самками дрозофилы отложено 10 000 
оплодотворенных яиц в указанном типе скрещивания и из них 
выжило 2000 АА, 3000 Аа и 1000 аа, то жизнеспособности этих 
генотипов равны: (4. 2000)/10 000 = 0,8; (2. 3000)/10 000 = 0,6; (4. 
.1000)/10 000 = 0,4 соответственно. Неудобство такого оценивания 
жизнеспособности заключается в том, что необходимо знать исход- 
ное количество зигот №, продуцируемых в данных скрещиваниях, что 
практически невозможно. Однако при изучении динамики генетичес- 
кого состава популяции нам вовсе не требуются абсолютные величи- 
ны приспособленностей (в данном случае жизнеспособности) разных 
генотипов. Нужны только соотношения между приспособленностями 
генотипов. Так, в предыдущем примере не важно, будут ли жизнеспо- 

собности генотипов 0,8; 0,6 и 0,4 или же все они в 2 раза меньше -- 0,4; 
0,3 и 0,2. С точки зрения динамики частот генотипов важно то, что 
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жизнеспособность гетерозиготы Аа составляет 0,6/0,8 = 0,75 (75%) от 
жизнеспособности гомозиготы АА и она в 1,5 раза больше жизнеспо- 
собности гомозиготы а4. Таким образом, нам нужны относительные 
приспособленности генотипов, определенные как пропорции между 
фактическими приспособленностями. При этом часто полагают 
относительную приспособленность одного из генотипов равной 1. 
Так, если в предыдущем примере принять за 1 относительную жизнес- 
пособность генотипов АА,то относительные жизнеспособности гено- 
типов Аа и аа будут 0,75 и 0,50 соответственно. Можно принять за еди- 
ницу жизнеспособность другого генотипа, например Аа. Тогда отно- 
сительные жизнеспособности АА и аа будут равны соответственно 1,3 
и 0.66. Если же за 1 принять жизнеспособность аа, то относительные 
жизнеспособности генотипов АА и Аа будут равны 2,0 и 1,5. Несмотря 
на столь большие различия в разных вариантах подсчета относи- 
тельных приспособленностей, они дают одинаковый ответ в пропор- 
циях: жизнеспособность гетерозиготы Аа составляет 0,75 от приспо- 
собленности гомозиготы АА и она в 1,5 раза больше приспособлен- 
ности гомозиготъг аа. 
Зкспериментальная оц 
неизмеримо проще, чем оценка 


енка относительной жизнеспособности 
фактической жизнеспособности, ибо 
число оцениваемых параметров при зтом уменьшается на 1, и зтим 
"лишним" параметром является как раз трудно определяемая исход- 
ная численность зигот М. В частности, при оценке относительной 
жизнеспособности по данным О расщеплении в потомстве гетерози- 
готных родителей достаточно знать лишь пропорции генотипов 
среди потомков. При этом относительные жизнеспособности геноти- 


пов АА, Аа и аа можно, например, оценить как 
2пПАА/Пда» 1, 2паа/Паа» 


если за 1 принять присп 
Пусть относительная приспос 
1 (жо 1). Тогда относительную прис 


записать в следующей форме: 
и =Т- 5, маш1-і, 


особленность гетерозиготы. 
обленность гетерозиготы принята 3а 
пособленность гомозигот удобно 


гдези! — это т.н. относительные коэффициенты отбора против 
гомозигот АА и аа соответственно (относительные, т.е. по отношению 
к гетерозиготе). Отметим, что не исключается случай отрицательных 


значений 5 и {. Например, 5 = 0,5, =-0,5 ; тогда 


и! = 0,5, и. = 1, из = 1,5. 


Это означает, что приспособленность гомозиготы АА составляет 


лишь 50% от приспособленности ге 


ность аа в 1,5 раз больше, чем У гетерозиготы Аа, и в 3 раза больше 


терозиготы; зато приспособлен- 


Ри 
БЕ 31. Логическая схема вывода уравнения 
динамики частоты аллеля А при отборе 


Репродуктивная ` группа. 


количест 
венная характеристика 
ПОКОЛЕНИЯ 1 


отбора, приводящего к генетичес- 
ким изменениям и соответствую- 
щим сдвигам в фенотипическом со- 
ставе популяции. С эколого-гене- 
тических позиций — это лишь один 
из параметров, играющий важную 
РЕ наряду с численностью, поло- илл 
2 структурой и т.п. в об- И сани ДА 
ционной динамике. Сле- аи 
дует также особо отметить, что под 
отсутствием отбора по данном 
локусу в популяционной ана 
понимают отсутствие различий 
между генотипическими группами 
(например, между АА, Ааи аа) по 
средним значениям жизнеспособ- 
ности, плодовитости и других по- 
казателей воспроизводства. 
А Уравнения динамики. К чему 
едва релше в приспособ- и, ста 
даи разных генотипов? Дать АА Аа 
твенную оценку последствий 
такого различия иногда бывает не- 
трудно. Например, ясно, что гено- 
типы с пониженной приспособлен- 
ностью будут иметь меньший вес в 
популяции, а аллели, уменьшающие 
жизнеспособность, будут элимини- 
роваться. Однако в более сложных 


ситуациях инт 
уиция может по 
вести. И 
гика математич а д . Именно здесь и нео 
еской модели. Что же касается 2... тоа 
х оце- 


нок, то без дин 
: амических Е 
случаях. уравнений не обойтись даже в простых 


24.) №. 
Я: 244: 


Изложим принцип пол 
Е учения соответствующих Й 
Аа ады У сцепленному с полом Ше 
и. 72. моногенный признак, определяемый дв е 
о ного гена. Обозначим »,М, уз о. 
‚Аа, аа соответственно и допустим г 


ним нет полов 
ого диморфизма. На рис. 31 видно, что есл 
; и скреци- 


вание сл учайно в отношен зучаемог о призн ка то частоты 
( Ш ии и р а ) 
з 


аллеля А в сме 
жных поколения 
х 
связаны уравнением (обозначим их соответст 


р'= (и„/)р, 


где м, = у = 
р 1р + "24; № = у 2: 
11. Зак. 1490 ы ір” + дрфюо + уф. 


приспособленности альтернативной гомозиготь! АА. 
Говоря о приспособленности, мъ для краткости будем иногда я Е 
опускать слово "относительная". Важно подчеркнуть, что понятие еннорир) 
относительной приспособленности (и соответствующее ей понятие 
коэффициентов отбора) в генетике популяций используется как 
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я; — это усредненная приспособленность генотипов (ус- 
К стоты); иначе ее называют средней 
Аналогично уравнение для частоты 


Величина 
редненная, т.е. с учетом их ча 
приспособленностью популяции. 


другого аллеля — а; 
4 = (м), 
где и. = мэр + %34. йа 
и что из этих двух уравнений одно является реа М 
Й О 1: = 
гого, так как частоты аллелей дополняют друг да Мар 
и Поэтому следует рассматривать только одно из ура А 


м любое, например для р. Екей 
19 можно записать уравнение динамики, рассматривая не прис 


: = 1 =1-5, Ма 
бленности генотипов, а коэффициенты Т мо = 1, №1 
=1-5р, бе 1- (5р + 19°). 
= 1—1. При этом жр = 1 - 50, У 
Поэтому динамическое уравнение отбора принимает вид 


р 1-5р 
Р Ру (5р? + 142) 


нар- 
Как следует из 83 гл. 1, У этого уравнения имеются три стационар 


ные точки: о 
‚ = 0, оно устойчиво при 1<0; 


= 1, устойчиво при 5<0; 
зи ине 
А = 1(5 + 1), устойчиво при одновременном выполнени 
5>0, 1>0. 

Таким образом, полиморфизм в поп 
есть преимущество гетерозигот: 


равенств 


уляции поддерживается, если 


5>0, 1>0. | 
олиморфизма, если коэффициенты отбора колеб 


ление? Обозначим 5; и & коэффициенты 
це 


Каково условие п 

поко 

лются из поколения в ка 
бора в поколении номера і. Проведя выкладки, указанные в 


гл. 1, получим условие стабильного полиморфизма: 
А А 
5>0, 1>0. л 
и ел 
где би ^— логарифмические средние величины 5; И ; опред 
соотношений: 


г 


ИВНОСТИ 
Таким образом, в случае изменения направления и Изи по 
г д | 
иморфизма не столь 
векторов отбора условие ӘЛЕ рф ОН ция 
случае неизменной среды: $>0, 0. Из покол 
и {могут как угодно меняться, 
тельны. 


лишь 
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бы в среднем они были положи- 


Что дают нам рассмотренные динамические уравнения, обсудим в 
следующем параграфе. 

Оценка коэффициентов отбора. Можно указать три подхода к 
оценке коэффициентов отбора. Первый из них заключается в последо- 
вательной экспериментальной оценке отдельных компонентов прис- 
пособленности (жизнеспособности, плодовитости, половой активнос- 
ти) и последующем их сведении в суммарный показатель. Второй — 
это изучение динамики частот аллелей и генотипов в ряду поколений 
с последующей оценкой параметров уравнения отбора по методу на- 
именьших квадратов или иному методу. Третий подход — исследова- 
ние пространственно-временного распределения частот аллелей и 
генотипов в популяциях и оценка коэффициентов отбора на основе 
модели подразделенности данной популяции. Все эти три подхода 
включают множество разнообразных задач и ситуаций, разбор кото- 
рых — предмет отдельного рассмотрения. Наиболее полная сводка 
их в книге [Мащу, 1985]. 


Миграция генов 


Изоляция и миграция. В популяции, состоящей из нескольких 
группировок, нет панмиксии: чаще, чем ожидается при случайном 
подборе, пары образуют те особи, которые находятся на одной тер- 
ритории и принадлежат одной группировке. В ряде случаев особи, 
принадлежащие к пространственно разделенным группировкам, не 
скрещиваются. Тогда говорят, что эти группировки географически 
изолированы друг от друга. Географические барьеры — это водные 
пространства для наземных форм, участки суши, — для гидробион- 
тов, горные хребты — для равнинных популяций, равнины — для 
горных форм и т.д. 

С позиций генетики главное в изоляции — это репродуктивный 
барьер между группировками. Географическая отдаленность — лишь 
одна из возможных причин, обусловливающих репродуктивную 
изоляцию. Помимо нее, могут быть и другие, к примеру сезонная изо- 
ляция вызвана несовпадением периодов размножения в разных 
группировках. Так, у большого погремка, как показано Н.В. Цингером, 
на сенокосных лугах могут образовываться ранне- и позднецветущие 
формы: одни успевают отцвести и дать зрелые семена до сенокоса, 
другие — после него (по: [Тимофеев-Ресовский и др., 1973]). Эти две 
формы репродуктивно изолированы друг от друга. У некоторых рыб, 
например у тихоокеанского лосося нерки ОпсотупсПиз пегка, встре- 
чаются две формы (летняя и осенняя) с практически неперекры- 
вающимися периодами нереста. Иногда встречается иной тип 
временной изоляции. У другого лосося — горбуши О. рогриѕсћа, цикл 
размножения которой составляет ровно 2 года, выделяют линии "чет- 
ных" и "нечетных" лет, которые полностью изолированы друг от 
друга, хотя ареал их практически один и тот же. Можно указать на 
экологическую изоляцию (когда в пределах одной и той же террито- 
рии особи, принадлежащие к разным группам, предпочитают разные 
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экологические ниши, наример разные кормовые растения ІКреславс- 
кий-Смирнов, 19871), физиологическую и т.д. 

Внутривидовые группировки редко бывают полностью изолиро- 
ваны друг от друга. Чаще всего изоляция частична и есть обмен осо- 
бями между ними. В таких случаях говорят, что группировки свя- 
заны друг с другом миграционными потоками. В общепринятом пони- 
мании миграция — это обмен особями между группировками. Сле- 
дует обратить внимание на несколько уточненный смысл этого поня- 
тия в популяционной генетике. Здесь, говоря о миграции, имеют в 
виду миграцию генов. Иными словами, считается, что между группи- 
ровками есть миграция, если "чужие" особи не только оказались в 
этой группировке, но и дали потомство. Именно миграция генов в 
первую очередь обеспечивает генетическое единство популяций. 

Множество факторов влияет на интенсивность миграции. Числен- 
ность группировок, условия среды, антропогенные воздействия и ДР. 
могут значительно увеличивать (или уменьшать) миграционные пото- 
ки; при этом ряд группировок объединится в одну группировку или, 
напротив, одна группировка разделится на несколько. 

Модель миграции. Рассмотрим следующую модель. Пусть р — 
частота аллеля А в некой группировке, в которую поступает поток 
мигрантов из большой центральной популяции, частота аллеля Ав 
которой неизменна и составляет рг. Определим коэффициент мигра- 
ции т как долю иммигрировавших особей в суммарной численности 
данной группировки. В каждом поколении происходит объединение 
генного пула мигрантов (доля которых составляет т) с генным 
пулом данной группировки (его доля составляет 1- т). Поэтому 
уравнение динамики частоты аллеля А под действием только 
однонаправленной миграции имеет вид 

р-(1-тур%тр;, 
гдери р' — частота аллеля Авсмежных поколениях. 

Очевидно, что стационарное состояние р» равно р.. Действительно, 
оно находится из уравнения (83 гл. 1) р. = (1- т) р« + тре, откуда 
р»= ре (если т # 0). Далее:Е(р) = (1 – т) р + тр. ‚ откуда АаҒ/4ар-1-те<1; 
следовательно, это состояние устойчиво. 

Ясно, что миграция ведет к изменению частоты аллеля р в сторону 
сближения его с р., а скорость этого сближения определяется вели- 
чиной коэффициента миграции т. Если из поколения в поколение ин- 
тенсивность миграции меняется, то динамика частот аллелей будет 
определяться усредненным коэффициентом миграции. Действитель- 
но, если использовать результаты 63 гл. 1, то получим, что в среднем 
изменение частоты р определяется величиной т, которая находится 
из равенства 


т 
11(1- т) = іт І Ул - т), 


1-же7і-1 


где т; — коэффициент миграции в і-м поколении. 
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пая:иа которых может быть миг 
усть т; — коэффициент миграц 
ровку. Обозначим через р; 
эффициенты отбора гомоз 


где и; = А 5 
де м; 1-5р; -44; — 


анализ возможен, 


Миграция и отбор. то будет, если миграция не единствен НЫЙ 
ф р популяционной дина! ики, а существует разли чие межд 


нить картину. В завис 

. имости от направ 

лен 

сближение частот аллелей, или же за м... 


уравнение динамики усложняется 

Пусть м = 1-5, уз = 1, из = 1 
Аа и аа. В этом случае част 
связаны уравнением 


ротив, усилить его. При этом 


- — приспособленности генотипов АА 
э 
оты аллеля А в смежных поколениях 


“ м 
Р ро? (1-м) + тро, 


где Ир» У’, каки прежде: Ир =. 1-5р, У = 1-(5р Ж 14 ). 
Мы не приводим его подробно о вывода. | ассуждения здесь такие 


астный слу аи расс 
ч Т Чч мотренные уравн гор учитывали или 
ения (ко о ые 
оо бор ( іш 0), ИЛИ олько миграцию (5 = 0 г 0) | 
ТОЛЬК І тш І ЕО, {= в 


т 
с ационарное состояние в этом случае определ 


ао яется как решение 


р -р-> (1-т) + тре, 
Условие его устойчивости < 1,где 
Е (р) = р“ 

Ф) = р (1-т) + тр. 


Рассмот 
рим теперь ситуацию, кагда имеется д группировок, каж 


рационно связана с любой другой 
Бя из /-й группировки в 7-ю группи- 
у аллеля в группировке Г, 5; и 4; — ко- 
игот АА и аа (приспособленность гетерози- 


готы при 
ринята за 1). Тогда уравнение динамики имеет вид 


М4 
ТА Р; иа 
Р; =(1- т) — р, 3: рУ т; — р; 
ша, Таи 
ші 
іш 1,2, ..., К, 


средняя приспособленность для і-й 


Й 
группировки; М7 =] —ярит; = 1- 5 ты; 

эт; а ща суммарная доля иммиг- 
рантов в і-й группировке. йі 


Исследова 
д ть эти уравнения непросто. Однако приближенный и 
ио і 
н показывает, что динамика частот аллелей при 


взаимодействии 
отбора и миграций определяется не столько абсо- 
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лютными величинами 5, ѓи т, сколько их отношением т/(5 + 0). Только 
в том случае, когда т << 5 + /, миграцией можно пренебречь.Если 5% 
+ 1 << т, то в первом приближении можно пренебречь отбором. При 
сопоставимых по величине коэффициентах отбора и миграций 
следует одновременно учитывать оба эти фактора. 

Определение и тестирование коэффициентов миграции заключают- 
ся или в мечении и последующем отлове меченых особей в разных 
районах, или же в оценке их значимости на основе теоретических за- 
кономерностей | тайна, 19811. 


Системы скрещивания 


Система скрещивания — это понятие, относящееся не к отдельной 
особи, а к парам особей и характеризующее особенности их подбора. 
Мы уже обсудили понятие панмиксии как системы скрещивания, не 
зависящей от фенотипического распределения по данному признаку. 
Вместе с тем в популяциях часты отклонения от независимого скре- 
щивания. Мы кратко рассмотрим их и укажем некоторые описываю- 
щие их модели. 

Селективное скрещивание. Характер скрещивания во многом 
определяется поведением особей. Оно нередко приводит к отклоне- 
нию от панмиксии, в частности селективному скрещиванию. Селектив- 
ное скрещивание — это предпочтительный выбор при скрещивании 
особей определенных фенотипов (т.е. с большей вероятностью, чем 
это ожидается при случайном скрещивании). Приведем некоторые 
примеры. Так, У р. теапоразег, как и у многих насекомых, существуют 
индивидуальные и групповые различия в предкопуляционном ритуа- 
ле, что в конечном итоге обусловливает разное предпочтение друг 
друга у мух из разных географических районов или из разных линий. 
Аналогичным образом мутация, вызывающая заметный фенотипичес- 
кий эффект, может плейотропно действовать на предкопуляционное 
поведение особей, изменяя элементы ухаживания и приводя к нару- 
шению ритуала и неслучайности в выборе партнера. Например, мута- 
ция уеПоу снижает половую активность самцов. Очень часто мутации 
действуют "неоднозначно" и зависят от многих факторов. Так, самцы 
еһопу менее активны на свету, но более активны В темноте по 
сравнению с нормальными самцами. Примеров подобного рода можно 
подобрать довольно много. Они показывают, что в этих случаях осо- 
би определенного фенотипа отстраняются от размножения. Селек- 
тивное скрецивание по механизму относится к системе размножения, 
но по своим последствиям равносильно отбору, так как репродуктив” 
ную группу чаще образуют особи не всех фенотипов, а лишь тех, что 
более предпочтительны при выборе пары. Отбор здесь выступает нев 
качестве элиминирующего фактора (как выживаемость); отстраненные 
от размножения особи определенного генотипа не гибнут, но в эво- 
люционном смысле они мертвы. 

О математической модели селективного скрещивания можно отде- 
льно не говорить, так как оно, как было сказано выше, является одним 
из компонентов приспособленности (обозначенным в $ 1 символом Р). 
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Таблица 18 
Поэтому на этом мы закончим обсуж- 


дение селективного скрещивания 
Ассортативное скрещивание 

В предыдущем пункте говорилось 5 
селективном скрещивании, при кото- 
ром некоторые фенотипы отстраня- 

ются от размножения и не входят в 

репродуктивную группу. Рассмот- 

10 рим теперь саму репродуктивную 

33 группу, т.е. особей, участвующих в 

Е Какие могут быть осо- 
ерата нности в подборе пар? 

в Е р; пул группе скрещивание может быть неслучайным 
5222. Ни только их фенотипом, то говорят об 
е ИЯ ии. Принято различать тип ассортативности 
а Да ктера предпочтения фенотипов. Ассортатив- 
аа вани меда реа положительным, если фенотипически 
большее лова ее а. а. 

менее пре р ходнъх фенотипов. 

а рим а пример. В эксперименте по межлинейным 
Ее 5 25 оразег [Соломатин и др., 1974] предваритель- 
22 Я пи числу самцов и виргинных самок из 
АННЕ ре ДЕ нных мутациями \/ПЦе и сш, и помещали на 
522. оу банку. После этого самок рассаживали в 
на ДЕ ирки, а затем по потомству каждой самки опре- 
22 вы к с ней самца (табл. 18). Приведенные 
52. А льствуют о положительной ассортативнос- 

те = прош ри скрещивании мух своей линии. Но какова 

ДА редпочтения? Для ответа на этот вопрос н 

сортативности. не 
Рассмотрим таблицу скрещиваний, считая, что в популяции мы от- 


д 
б: а + } пос 


Количество различных типов скре- 
щивания между особями линий 
вие и си у О. теапораяег 


Генотип Генотип самцов 


самок 


УВие 21 
Сш 5 


Пусть 
кз | ё ВА и исто четырех типов пар, причем Ру-- 
цари х бр аР – частота скрещиваний Ф/х Е 
отипов Е и/ среди самок обозначены как Рри Р, ас 
самцов — Рри Ру. Саге 
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Рассмотрим разность: 
А = РррРу- Ре: 
Несложные выкладки показывают, ето Ж 
П к _ Р > 
Ррр — РрР'р= — Ре 3 РеР; = = Ре + РР,“ Ру Р; Тт 
льно, при А - 0 частоты пар равны ЕЯ м 
ыми сло ‚А= 
самок и самцов. Ин 
ющих фенотипов У ад 
оте скрещивания относительно ее əді 
Бра ка Если А > 0, то пар РхЁРи хр больше, чем я 2 
енини скрещивании, т.е. это случай положительн анаған ды 
1. скрецивания. Неравенство А < 0 указывает з ае 
ни тативное скрещивание, так как фактические до а 
хри | ХЕ превышают ожидаемые при независимом от д 
нака подборе пар. 
личин 
ьно возможная ве 
а. ксимальное по модулю 
1 р.РР.). Если А < 0, то ее ма 
А+ = тіп {РеРь, РЫ 


значение А. = тіп (РР, РР. 


5 при А>0, 
а = 


Следовате 


а А, если она положительна: 


Введем коэффициент ассортати вностис: 


А/А_ приА< 0. 


вая знак и 
Коэффициент о принимает значения от -і до +1, показы 


ициента 
но, в качестве коэфф 

ности. Можно, конечно, 

степень ассортатив 


ассортативн ости взять 


что тогда минимальное значение будет не а оа з, 
Для примера из табл. 18 получим: А = 


; а = 643/988 = 0,65. 
= і . 26.38) = 988. Следовательно: а 
ші с е критерии. Как определить, есть (или нет) 
т 


И М , аа т 
ассортативность скрещивания? Пусть 1 М2 5 фенотипы 
(генотипы) самцов, а 1 1 Е», ..2. Е, ы фено ТИПЫ самок Пусть имеется 


р д 

М ар, д 

тх п, где М число пар 1 + х М; М;. общее число самок фенотипа 
у 


Е ,в выборке; № ; — общее число самцов М; 
+ В 


А/А+ при любых А; надо только иметь в виду, 


Фенотип самцов Сумма 


Фенотип 
самок 
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В качестве теста на ассортативность можно использовать, напри- 
мер, обычный критерий "хи-квадрат": 


= 
1=1ј=1 іў 


где М; -М.М./ М — ожидаемые численности; число степеней свободы 
(5-1) (т-1). Можно применить и другие статистические критерии, 
указанные в гл. 2: С-критерий, модифицированный "хи -квадрат"-кри- 
терий и др. 

Если критерий не превышает значимого уровня, то анализ ассорта- 
тивности на этом прекращается: она не обнаружена. Если же критерий 
указывает на значимость, то мы можем говорить об ассортативности 
скрещивания. Но при этом возникают две задачи. Первая из них свя- 
зана с выяснением того, по каким именно фенотипам (из имеющихся) 
скрещивание неслучайно. Это действительно реальная задача, поско- 
льку, с одной стороны (статистической), значимость критерия гово- 
рит только о каких-то отклонениях от независимого сочетания фено- 
типов, но не указывает каких именно, а с другой (биологической) — 
возможны ситуации, что одни фенотипы "нейтральны" по отношению 
к выбору партнера, а другие проявляют ассортативность. Например, 
особи "крайних" по морфологическим признакам фенотипов нередко 
проявляют значительную ассортативность, в то же время у феноти- 
пически "средних" особей она мало выражена [Креславский-Смирнов, 
1987]. Вторая задача — определение меры ассортативности. 

Решение первой задачи — разбиение таблицы скрещивания на под- 
таблицы и соответствующее разложение общего х2 на компоненты. 
Эта стандартная биометрическая задача изложена в ряде пособий 
(см., напр.: [Аптон, 1982]). Решение второй задачи для подтаблиц раз- 
мера 2х 2 дано в предыдущем пункте в виде меры о. Для более общего 
случая таблиц ах существуют разнообразные меры связи (см.: 
обзор в кн.: [Аптон, 1982]). 

Генетические последствия ассортативности. Генетические 
последствия положительного ассортативного скрещивания очевид- 
ны:уменьшается доля гетерозигот и увеличивается доля гомозигот 
(в сравнении со случайным скрещиванием) по тому признаку, по кото- 
рому есть положительное ассортативное скрещивание. Действитель- 
но, фенотипическая ассортативность влечет за собой ассортатив- 
ность генотипическую. Поэтому идет более интенсивное выщепление 
гомозигот, что и приводит к их большей частоте. При отрицательном 
ассортативном скрещивании в противоположность положительному 
увеличивается доля гетерозигот по сравнению со случайным скрещи- 
ванием. 

Чтобы это утверждение не было голословным, чтобы строго выяс- 
нить, к каким изменениям в частотах генов и генотипов приводит 
ассортативность, рассмотрим простую математическую модель. 

Пусть в популяции встречаются особи двух фенотипов Еи Ў, 
которые определяются одним аутосомным геном с аллелями А иа. 


169 


ип 

Пусть А — доминантный аллель, так что особи АА и Аа имеют фан ар 
Е. а особи аа — фенотип У. Будем предполагать, то р ое 

| от 

енотипов и фенотипов. Заст 

иморфизма по частотам г ра пи 
Р иј ирани через Рғи Ру, частоты генотипов — через дабы а 
соответственно, а частоты аллелей Аиа — через ри 4 пай с 
сматриваемого случая Рр= Рад+ Раа: Р;= Ра Кроме того, , 


1 1 
что р=РАл +7 Рада: 9 =Ра+ 5 РАа 


напомним, 
Прежде чем приступить к выводу уравнения динами =. 
что, по определению коэффициента ассортативности С, 


шиваний между особями разных фенотипов таковы: 
р? +аРрРу для ЕХЕ, 
2(1-о)РғРр для Ех 7, 
р? + аРЕР; для ў хў. 


Поэтому частоты скре 
следующие: 


ТІСШЕСІ для ААХАА, 


шиваний между особями разных генотипов 


2(РллРда І РР? + оРгР,) для ААХАа, 


(Рла пре) (ғр +аРьР/) для АахАа, 


(Рад | Ре )2(1- 9)РғРу для, ААхаа, 


(Ра / Ре)21- о)РрРу для Аахаа, 


я для аахаа.. 
р? жор?) 
ия относятся к Е Х Е, следующих два — 


щем поколении. Учитъвая расщепление Жалы не: 
готных особей, суммируя соответствующ т | 


раические преобразования, получим: 


Первых три типа скрещиван 


Р 
; 2 27 
Рдд-р +9р Ро” 
Р 
227 
Ра = 2р4 – 20р Ро” 


Ра =42 + ар? (Р; / Рр). 


ют динамику частот генотипов при 


внения описыва 
ев И ри отсутствии других факторов). 


ассортативном скрещивании (но п 
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Отсюда мы можем получить интересные следствия. Во-первых, часто- 
ты аллелей в чреде поколений не меняются. Действительно: 


р = Рдд + 2 = 02 ара =р. Далее, если © > 0,тоР > р?иР', > 47, 


ноР,, < 2р4. При а < 0 эти неравенства меняются на противополо- 


жные. Следовательно, ассортативное скрещивание не меняет частоты 
аллелей, но меняет частоты генотипов: при положительной ассорта- 
тивности возрастает частота гомозигот и уменьшается доля гетеро- 
зигот (по сравнению со случайным скрещиванием), при отрицатель- 
ной ассортативности уменьшается доля гомозигот и увеличивается 
частота гетерозигот в популяции. 

Вывод о неизменности частот аллелей говорит о том, что само по 
себе ассортативное скрещивание на них не влияет. Однако это не зна- 
чит, что при отборе ассортативное скрещивание не будет влиять на 
динамику частот аллелей. Влияние это опосредованное — через от- 
бор генотипов, частоты которых изменяет ассортативное скрещива- 
ние. Это можно строго обосновать уравнением динамики. Чтобы его 
Жа и баз 
--частоты зигот. Если у], Жо, жз — их приспособленности, то с их 
учетом ненормированные частоты генотипов в следуюшем 


получить, заметим, что в предыдущих уравнениях Рад, 


поколении: Рд, *2РАаи »зР а частота аллеля А: 


2 1. 
, УРА + №2 >; РАа 


мА Рдд + жо Рд + #3 Рд. 


Подставляя вместо р' их выражения, получим 


Р, 
жр ар (м -») 
р-р Р : 
%-ор?- Г (2% -т - на) 
Рр 


где, как и раньше, у, = жр + Уд; ут мур? + уу;2р4 + изд”. В терминах 
козффициентов отбора зто уравнение примет вид 


Ру 

1-зр 1+ о —— 

‘ Рр 
р=р Р 5 
1-5 р? +ар? Л -і 42 +ар? Г 
Рр Рр 


Оно наглядно показывает, что динамика частоты аллелей зависит 
как от коэффициентов отбор, так и от коэффициента ассортативности. 
Понятие инбридинга. Инбридинг -- иной тип отклонения от 
панмиксии. В отличие от ассортативного скрецивания, где неслучай- 
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ность выбора партнера определяется фенотипическими особеннос- 
тями особей, инбридинг характеризуется большей, чем при случай- 
ном скрещивании, частотой скрещиваний между родственными осо- 
бями. Например, самоопыление у растений является крайней формой 
инбридинга. У животных инбридинг может быть следствием особого 
поведения особей. Так, у некоторых жуков-наездников каждая особь 
хозяина заражается одной, реже несколькими самками. Молодые 
самцы выходят из куколок раньше самок и остаются тут же, на кладке, 
отгоняя чужих самцов. По мере выхода самок из той же кладки они 
спариваются с ними. Это сильная степень инбридинга — тип скрещи- 
ваний "брат х сестра“. Инбридинг всегда имеется в небольших по 
численности популяциях, ибо вследствие ограниченного выбора 
есть вероятность скрещивания с родственным особями. У многих 
животных определенная степень инбридинга возникает вследствие 
ограниченной миграции: родственные особи обитают на общей терри- 
тории и вероятность скрещивания между ними повышена . Подобная 
причина инбридинга характерна и для многих растений, так как 
разнос семян и разлет пыльцы нередко ограничены расстоянием; 
поэтому "соседями" часто оказываются родственные растения. Очень 
высокая степень инбридинга характерна для популяций сельскохо- 
зяйственных животных и растений, и здесь она иногда сознательно 
допускается. Например, при создании новой линии в стаде осуществ- 
ляется постоянное возвратное скрещивание на родоначальника этой 
линии или на его потомков. Ограниченное число (а нередко одно) 
растений дает начало новой линии и даже сорту. Определенный ин- 
бридинг наблюдается и У человека. 

Каковы последствия инбридинга в смысле генотипического соста- 
ва популяций? Ясно, что при инбридинге по сравнению со случайным 
скрещиванием более вероятно образование пар особями сходных ге- 
нотипов. Поэтому последствия здесь те же, что и при положительном 
ассортативном скрещивании — наблюдается уменьшение доли гете- 
розигот. Но есть и существенное отличие: инбридинг не обладает 
специфичностью, идет гомозиготизация по всем локусам. В частнос- 
ти, при полном самоопылении популяция разбивается на ряд линий, 
каждая из которых через большое число поколений может стать го” 
мозиготной по многим локусам, если этому не воспрепятствует 
естественный отбор. 

Представление о том, какова система скрещивания в популяциях, 
немаловажная задача. Например, оценка степени инбридинга очень 
важна при изучении распространенности наследственных заболева- 
ний в популяциях человека, а ткже при исследовании искусственно 
разводимых и природных популяций. В связи с этим возникают две 
задачи: 1) выбор меры инбридинга; 2) оценка последствий инбридинга 
на частоты генотипов в популяциях. Обе эти задачи могут быть реше- 
ны на основе анализа математических моделей. 

Коэффициент инбридинга. Что следует принять в качестве ме- 
ры инбридинга? Прежде чем ответить на этот вопрос, следует в фор- 
мализованных терминах выразить суть понятия инбридинга. Повто- 


172 


Рис. 32. Родословная с инбридингом 


Индивид Ст омозиготе о ентич: м ле. м и и гомозиготе е- 
н по иден ны + 
аллеля Ар ндивид Н Зі нпон 


им — 
Е ықы это более вероятное скрецивание родственных 
а: о ау раси — это особи, имеющие общего предка в 
ных. А раз так, то эти особи 
Й могут иметь т. 2 
емые индентичные по пр бап, 
оисхождению гены. Т 
оаа . Так, на рис. 32 особи Пи 
1. являющиеся идентичными к 
опиями, пришедш 
от родоначальницы обеих | о 
изображенных на рис 
ловной. Аллели называют В е ав 
ся индентичными по про 
они являются репликатив аа 5 
ными копиями ОДНОГО и тог 
о же аллеля. Н 
Ва 32 видно, что одинаковые аллели, скажем А1, мо бъть МАИ 
3 ‚ могут 
2. а, происхождению (на рисунке зачернены), так и 
ми. Следовательно, при ск | 
керуенді аны 7 рещивании родственных осо- 
ляться гомозиготные особи 
двух типов: 1) с + 
пин : идентич 
по происхождению аллелями (особь О); 2) с неидент 
особь Н. | ее" 
Мы 
н Шен об инбридинге лишь в том случае, когда в популиции 
обычными" гомозиготами 
имеются гомозиготные 
особи с 
А кан по не аллелями, т.е. при инбридинге доля 
ных особей становиться бо 
льше, чем это ож 
де А идается при 
ии скрещивании. Превышение происходит именно за счет сан 
т, у которых оба аллеля в локусе идентичны по происхож- 


д . с р ициент инбри ИН 
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коэффициент инбридинга — это доля особей, гомозиготных по 


идентичным аллелям. 

Таким образом, генетический состав группировки можно пред- 
ставить себе как бы состоящим из двух частей: "неинбредной" (доля ее 
1- Ғуи "инбредной" (доля Е). Если частоты аллелей Аиа в группи- 
ровке равны ри 4, то в неинбредной части соотношения частот гено- 
типов будут р?: 2р4: 4? (если нет других факторов динамики). В то же 
время в инбредной части имеются только гомозиготы АА и аа В соот- 
ношении р : 4. Таким образом, при инбридинге с коэффициентом Е 


частоты генотипов следующие: 
АА : (1- Е)р? + Ер = р? + Ерб, 
Аа : (1 - Е)2рд = 2ра - 2Ер, 
аа: (1 Е)а? + Еа = 4 + Ера. 


Если нет отбора, миграций и мутаций, то эти частоты сохраняются 
на всех стадиях жизненного цикла, в противном же случае это час- 
тоты соответствующих типов зигот. 

Отметим, что независимо от величины Ё инбридинг, как и ассор- 
тативное скрещивание, не меняет частот аллелей (если нет отбора). 
Действительно, частота аллеля А в очередном поколении равна р? + 


+Ерд + 1 Орд -2Ерф = р? + р4 = р. Следует отметить также, что одно 


поколение случайного скрещивания сразу же "разрушает" со- 
отношения частот зигот, обусловленных инбридингом, после чего 
они будут соответствовать случаю Е-0. 

Коэффициент инбридинга Е находится в пределах от 0 до 1. При 
Е = 0 инбридинг отсутствует и частоты У зигот такие, какими они 
должны быть при случайном скрещивании. Другой крайний случай 
(Е = 1) — это лишь теоретически мыслимая ситуация, не встречающая- 
ся в природе. Она могла бы осуществиться, если бы было 100% -ное са- 
мооплодотворение или если неограниченно долго в популяции осу- 
ществлялось близкородственное скрещивание. Для ряда растений, 
например ячменя Ногдешт ушраге, уровень самоопыления дейст- 
вительно велик — 95—99%. Соответственно в природных и сортовых 
популяциях этого злака доля гетерозигот крайне низка. Однако У 
большинства растений и у животных в среднем ‘уровень инбридинга 
гораздо меньше. У человека степень инбридинга относительно мала: 
доли процента |Ревазов, 1985]. 

Однако не стоит думать, что инбридинг при малых его величинах 
можно не учитывать. Это не так. Учет инбридинга необходим, на- 
пример, при эпидемиологическом обследовании населения, посколь- 
ку он увеличивает число гомозигот в популяциях. Сколь значи- 
тельно это увеличение? Сделаем прикидку: пусть частота рецессив- 
ного летального гена в популяции 4 = 10-3, а коэффициент инбри- 
динга — 0,1%, т.е. Ё = 0.001. Тогда доля пораженных данным забо- 
леванием составит 4? + Ер4 = 2 · 10-6 т.е. в 2 раза больше, чем при от- 
сутствии инбриднга (80:59). Этот пример наглядно показывает, по- 
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чему инбридинг может б 
ыть плох в тех популя 

этого времени отсутствовал. анны Чета 
Р 

метрин теперь модель, учитывающую инбридинг и отбор. При- 

а Я и раньше, жизнеспособность генотипов и; = 1 – 5, ж, = 1 
= - : я 7 

қ А 1 1. Указанные выражения — это частоты генотипов среди зи: 
. После отбора пропорции их будут соответственно: 


(02 + Ерфул, (2ра-2Ера)», (4? + Ерфуз, 


2 
к га ем + 20002 + 42%3) + Ера(ж – 2%. + мз) =®- Ера(5 + 1), 
деж = 1 - (5р + 14“). Следовательно, ненормированная частота 


аллеля А среди зигот следующего поколения—(р2+Ёрд)и! + Дора 
2 2 


2Ерд)жз= жр – Е 
р- Ер45. где жр = р(1 – ѕр). Окончате 
динамики с учетом инбридинга и отбора ығ ыы 


Ж 1 - 5ф + Ед) 
РР рр + Е) (а + ЕР)” 


И 
з этого уравнения можно получить, действуя указанным в 63 гл. 1 


д Ш 
способом, сле ую ее выражение полимор ного ст ационарног о 


р» = (#- 5Р)/[ - Е) +1]. 


Анализ показывает 
‚ что это полиморфное состоян 
устойчиво, если 5 > Ег,!> Ез. Е ара 
Оцен 
Ри нс ы я инбридинга. Напомним определение 
динга: Е — это доля гомозигот 
с идентичными по 
происхождению аллелями. По 
: отношению к отдельной б 
занное означает, что Е — эт 50 
Ў о вероятность того, что по 
кусу особь гомозиготна и им уг оа 
еет идентичные по происхож 
Е дению ал- 
деи, (еще одна трактовка: Ғ — это доля гомозиготных локусов у осо- 
ыы ыры, 522 В такой трактовке Ғ называется коэф- 
идинга особи. Поэтому можн 
; о было бы напрям 
си коэффициент инбридинга в популяции, если бы мы со 
— 2. инбридинга каждой особи, а затем усреднить 
вборке. Имеется возможность 
такой оценки на основе 
ана родословных. Дадим вначале теорию вопроса. 
ҚА: ое родословную, изображенную на рис. 33. Требуется оп- 
оны НЫ пробанда К. Выделим из родо- 
можные "ромбы" путей, соединя 
; ющих общего предка 
рата пробанда (А или В)с пробандом. В данном случае их пра 
2. С гуе н. Рассмотрим один из этих ромбов, скажем первый 
Р . 33,6). Обозначим а а" генотип общего предка А. Он может быть 
( редным или неинбредным. Если он инбредный, обозначим Ед — 
оэффициент инбридинга особи А. Это означает, что аллели с иа" 
Баце по происхождению с вероятностью Е. Оценим вероят- 
і Дио что я 5 и б содержат по идентичному аллелю 
нотипы особи Е:о”Вио”, каж 
: , дый с вероятностью 1/2 
(через В будем обозначать любой аллель, пришедший от других ро- 
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а 6 8 


Рис. 33. Различные пути от предка к пробанду в родословной с инбридингом 
а-- вся родословная; б, в, г, д — отдельные пути, ведущие от обшего предка к 
родителям пробанда К 


дителей). Аналогичны возможные генотипы Р: о и о“, также с 
” 
вероятностями 1/2. Так как вероятность идентичности о и о равна 


Ел, то 
Те ЖИЕН 
РЕ) => 5+2 5+2 2А%? „Ра = (5) (1+ Е,). 


Найдем теперь вероятность Р(Е,) того, что особи Е ир содержат 
по идентичному аллелю. Возможный генотип особи Е: о” (с вероят- 
ностью 1/4), "В (с вероятностью 1/4), ВВ (с вероятностью 1/2). Поэтому 


ТО 0 РО а 
РЕ) =5 2+5 4+2 фа +5 А5 О + Ёа). 


Аналогично этому мы получим окончательно, что для родителей 
пробанда Р(Н,Р) = (Әжі + Ел). Следовательно, вероятность того, что 
пробанд К имеет идентичные по происхождению аллели для рас- 
сматриваемого участка родословной: 

1 1 

2Р(Н,О) = (5)%1 + Ед). 

2 2 

Как следует из данной схемы рассуждения, общее правило подсче- 
та следующее: Е 

вероятность идентичности аллелей у пробанда ха + РА), гдес- 


число родственников в цепи (включая общего предка), соединяющей 
общего предка с пробандом. 


Поэтому для второй цепи родословной (рис. 33,в) вероятность — 


1 а 
буа + Ев); для третьей (рис. 33,0 — ( уа + Ел), для четвертой (рис. 


33,д) — ( та + Ең). Коэффициент инбридинга пробанда Ех равен 
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сумме: 
ве Фа + во + Фа + въ + Фу + РА) + СУС + Бъ. 


Общее правило: козффициент инбридинга особи равен сумме ве- 
роятностей идентичности его аллелей по всем цепям, соединяющим 
его с общими предками: 


Ек= ОЖ + Ра). 


Если на рис. 33 коэффициенты инбридинга общих предков равны 
нулю, то Ёк = 0,049. Следует отметить, что для правильной оценки 
коэффициента инбридинга не следует ограничиваться небольшими 
родословными пробанда, в частности глубина родословной у чело- 
века должна быть не меньше 5—7 поколений для тех популяций, в 
которых сознательно избегают близкородственных браков [Рева- 
зов, 1987]. 


Мутационный процесс 


Мутационный процесс — один из факторов эволюции. Оценим, 
сколь велика его роль как "поставщика" изменчивости в популяции. 
Пустьр' ир — частоты "дикого", немутантного аллеля А в смежных 
поколенях, а р, — частота возникновения прямых мутаций А -> а, где 
а — мутантный аллель. Тогда изменение частоты аллеля за счет толь- 
ко мутационного процесса описывается уравнением 


р = (1 - вр. 


В микроэволюционных преобразованиях популяций спонтанный 
мутационный процесс, вероятно, не играет особой роли, так как час- 
тота появления мутаций на локус не превышает 10-10%, Поэтому 
как фактор динамики мутации не вносят никаких изменений на малых 
отрезках времени (исключение могут представлять крупные пе- 
рестройки — "макромутации", если они адаптивны, или индуци- 
рованные мутации, частота которых может быть значительной). 
Действительно, пусть в исходном поколении частота мутантого ал- 
леля ро. Если этот аллель "нейтрален", т.е. приспособленность содер- 
жащих его генотипов такая же, что и у исходных форм, то через по- 
колений р; = (1-  )' ро. Возьмем для примера џ = 105. Тогда (1-ры) = 
=1- и, если! сравнительно невелико, скажем / < 1000. Следова- 
тельно, за 103 поколений частота аллеля изменится лишь на 1% от 
исходной частоты, т.е. роо — Ро = ро = 0,01ро. Если, например, 
исходная частота аллеля равнялась 0,10, то через тысячу поколений 
она станет лишь 0,101. Изменение явно незначительное. 

Вместе с тем нет сомнений, что как длительный (десятки и сотни 
тысяч поколений) эволюционный фактор мутационный процесс безус- 
ловно значим. Существующая в популяциях изменчивость — это во 
многом та изменчивости, что накапливалась видом в течение мил- 
лионов поколений. 
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Мы привели уравнение динамики частоты аллелей под давлением 
прямых мутаций, причем мутаций селективно нейтральных, т.е. не 
изменяющих приспособленность. Но основная часть мутаций не нейт- 
ральна, подвергается отрицательному отбору. Кроме того, некото- 
рая, хотя и очень небольшая, доля среди всех вновь возникших мута- 
ций может оказаться "полезной" для популяции и будет поддер- 
живаться отбором. Какова динамика частот мутантных аллелей при 
отборе? 

Проводя рассуждения, полностью аналогичные данным выше, мож- 
но показать, что динамика частоты аллеля А в популяциях под 
действием отбора и мутаций описывается уравнением 


У 
р-(1-н)р-Е, 
М4 


где ур =1- рз; # = 1- (5р2 + 142); и — частота мутирования А -> а. Это 
уравнение, как и в случае с взаимодействием отбора и миграций или 
отбора и инбридинга, является комбинацией двух уравнений: для от- 
бора и для мутаций. 

Рассмотрим некоторые частные случаи. Пусть а — рецессивная ле- 
тальная мутация, т.е. приспособленность АА и Аа одинакова и рав- 
на 1, а приспособленность аа равна 0: 5 =0, { = 1. Тогда 


. р = 
р = (1- ют ап + 4 
или Др = (42 – в)/1 + 4), где Др = р – р. Так как мутационный процесс 
увеличивает из поколения в поколение частоту "вредного" аллеля а, 
а отбор — уменьшает, то в ряду поколений должен возникнуть баланс 
между этими факторами, т.е. стационарное состояние, при котором 
Ар = 0. Такой баланс, как следует из уравнения для Др, наступит, 
когда 4? = і, т.е. при частоте аллеля а, равной 4, =Ур Таким образом, 
даже при крайне низкой скорости мутирования частота аллеля мо- 
жет стать значительной. Например, при р «10% 4, = 10-3. Следова- 
тельно, на тысячу особей будет приходиться два гетерозиготных по 
рецессивной летальной мутации индивида. 

Рассмотрим теперь несколько более общий случай, когда рецес- 
сивный аллель не летален и коэффициент отбора { меньше 1. Повторив 
предыдущие выкладки, получим следующиее выражение для стацио- 
нарной частоты мутантного аллеля: 4. = Ум/. 

Например, если коэффициент отбора против больных аа {= 0,25, то 
частота такой мутации в популяции ожидается 4 = 2и, т.е. в 2 раза 
больше, чем для летательного гена. 

По рассмотрении предыдущей задачи сразу же возникает очеред- 
ной вопрос. А что если "вредная" мутация а не рецессивна, а частич- 
но доминантна? Иными словами, какая частота установится в попу- 
ляции, если гетерозигота Аа имеет меньшую приспособленность, чем 
нормальная гомозигота АА. Очевидно, что отбор против такой — 
полностью или частично доминантной — мутации будет более 
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жесткий, чем против рецессивных мутаций. Рассмотрим этот вопрос 
детальнее на основе модели. 


В терминах приспособленностей условия задачи означают, что 
№ > № > из. Отметим, что в данном случае естественно принять 
приспособленность нормальной гомозиготы АА за единицу (и; = 1), а 
приспособленность гетерозиготы выразить в виде из = 1-5, 5>0 — 
коэффициент отбора против гетерозиготных особей (относительно 
нормы АА). Приспособленность гомозиготы аа по-прежнему 
обозначаем 1-1, причем г> 5. В этих обозначениях Ир = жр + мәд = 
=1- 59; = и1р? + 2у2рд + мзд? =1-25ра - 102. 


Как следует из уравнений динамики, равновесие между отбором и 
мутациями устанавливается при такой частоте, что 


(1- муер/у/ = 1, т.е. (1- в) - 59) =1-25(1-а)4 - 142. 


Отсюда, пренебрегая членами второго порядка малости, а именно 
фи ди, получаем д» = џ/5. 

Напомним, что 5 — это коэффициент отбора против гетерозигот. 

В заключение этого раздела дадим уравнение динамики, учиты- 
вающее мутационный процесс, отбор и инбридинг: 


1-5(р + Ед) 
- зр(р + Ед) - 14(4 + Ер) 


Это уравнение в соответствии с данной выше схемой получения 
динамических уравнений аналогично указанному для случая отбора 
и инбридинга, но с дополнительным коэффициентом 1 – ц, учиты- 
вающим мутации. 

Не вдаваясь в подробный анализ этого уравнения, определим ус- 
тойчивое стационарное состояние в случае рецессивного летального 
гена. Приз = 0, г = 1 получим 


р = (1 - рі 


и Е? Е 


= ----- -------5---------. 
ЕЕ) (1-Б) 


Если же а — полулеталь, т.е. {< 1, то 


а В 
(1-Е) 41-Е) 2(1-Е)` 


Популяционно-генетическая трактовка полученных выражений 
для стационарного состояния будет дана в $3 этой главы. 


Случайный дрейф генов 


Понятие дрейфа генов. В популяциях ограниченной числен- 
ности всегда наблюдаются изменения частот генов и генотипов, 
обусловленные случайностями процессов сегрегации генов в мейозе, 
слияния гамет, онтогенеза. Если бы популяция была очень большая 
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Поколения 


Рис. 34. Изменение частоты аллеля в ряду поколений под действием случайного 
дрейфа 

Распределения и пунктирные стрелки указывают возможный спектр изменений час- 
тоты аллеля. Сплошные стрелки — реализованная динамика дрейфа в отдельной линии 


(теоретически — бесконечной численности), то эти процессы имели 
определенную усредненную равнодействующую. Однако при конеч- 
ной численности равнодействующая случайно флуктуирует от поко- 
ления к поколению, и эти флуктуации тем значительнее, чем меньше 
численность. 

Вероятностная трактовка здесь проста. Пусть в данном поколении 
частота аллеля А равнялась р. Тогда в следующем поколении чис- 
ленности М может реализоваться любая частота аллеля (р' = к/(2№), 
где д — число аллелей Ау потомков), но реализация ее имеет разную 


к „К 
вероятность; она распределена по биномиальному закону С,,/р (1 - 


р)“. Поэтому утверждать можно лишь то, что ожидаемая частота 
аллеля у потомков будет такая же, как и у родителей: #(р) = р, но 
дисперсия р' ненулевая: У(р’)= р(1 – р)/(2М). 

Изменение частот генов за счет эффекта выборочности называется 
случайным дрейфом генов (кратко — дрейф генов). 

Рис. 34 поясняет суть генного дрейфа: в каждом следующем по- 
колении частота аллеля заранее неизвестна, но спектр ее возможных 
значений ограничивается размахом выборочного распределения. 

Дрейф генов — это процесс, с которым в ряде ситуаций следует 
считаться. Из поколения в поколение случайные изменения могут 
накапливаться, и в результате частоты генов и соответствующих фе- 
нотипов могут значительно отличаться от первоначальных их зна- 
чений. В частности, процессы генного дрейфа идут независимым об- 
разом в разных группировках; составляющих популяцию, и могут 
привести к их генной дифференциации. 

Пустьр — частота аллеля в данном поколении; тогда гете- 
розиготность (как мера генетического разнообразия) Н= 2р4 = 2р(1 - р). 
Найдем ожидаемую гетерозиготность Н" в следующем поколении, 
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если численность родителей М. Из теории вероятностей следует, что 
2М 
1 А к 2М-Ё М 1 
#(Н)- УСмр4а С (2р4), 
к-0 


гдер = &/2М; 4 = 1-р; & — знак математического ожидания. Опуская 
простые математические выкладки, приведем результат: 


ЖИ) = 2раП -(1/0М)). 


Таким образом, каждое поколение гетерозиготность уменьшается, 
а гомозиготность увеличивается на (1/(2М)Н. Следовательно, за т 
поколений исходная гетерозиготность Но = 2р4 уменьшится в 


(1 еті раз. И если бы дрейфу генов не противостояли другие 


процессы (например, мутационный процесс, отбор или миграция), то 
он в конце концов вел бы к генному единообразию в популяциях. Од- 
нако дрейф -- не единственный фактор популяционной динамики, и 
он лишь накладывает свой отпечаток на общую картину генотипичес- 
кого состава популяций. 


Говоря о дрейфе генов, следует иметь в виду, что № — это, вообще 
говоря, не численность группировки и даже не численность ее реп- 
родуктивной части. Поскольку разными могут быть плодовитость 
особей, соотношение полов, численности поколений и др., то в ка- 
честве № должна выступать некая средняя величина. Она носит назва- 
ние эффективной репродуктивной численности (кратко — эффектив- 
ная численность) и обозначается М,. Именно она фигурирует во всех 


оценках, связанных с учетом дрейфа генов. Мы не будем вдаваться в 
теорию вопроса и укажем (без вывода) формулы для определения №, в 
некоторых ситуациях. 


Если численность меняется из поколения в поколение, то М. рав- 
няется среднему гармоническому их численностей: 


= 
1 

а е 
м № ПА 


Если М, и №м — численности самцов и самок, то 
№. = (АМ,М//(М,,- М). 


В данных формулах для №, предполагается, что число потомков 
распределено в соответствии с законом Пуассона, для которого дис- 


персия числа потомков а совпадает. со средним (. 

Пусть численность популяции неизменна: & = 2, но дисперсия с? 
отлична от 2. Тогда №, = (4М- 2) о? + 2). 

Различные данные указывают на то, что №, может составлять 
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0,2--0,7 от общей численности, в ряде случаев М на порядок меньше 
М. Есть лишь одно исключение: №. может превышать М, если мала 


дисперсия размера семей. В крайнем случае может быть №, = 2М, если 


2 
число потомков одинаково во всех семьях, т.е. с, = 0. Это иногда 


используют в разведении животных для снижения эффектов 
гомозиготизации в малых по численности группах. 

Роль дрейфа в генной динамике. Как уже говорилось, дрейф 
стремится элиминировать генетическую изменчивость в популяциях. 
Уменьшение изменчивости, как следует из формулы для гетерозигот- 
ности, идет в среднем со скоростью 1/2 М, за поколение. Ясно, что 
противодействовать дрейфу могут только те факторы, интенсивность 
которых превосходит этот эффект дрейфа. Сопоставим дрейф генов с 
отбором и миграциями как наиболее важными в микроэволюционных 
изменениях факторами динамики, направленно изменяющими часто- 
ты аллелей. Поскольку теория дрейфа математически достаточно 
сложна, мы ограничимся лишь констатацией некоторых ее важных 
выводов [Сго\, Кипига, 1970]. 

Интуитивно ясно, что если по данному признаку коэффициенты 
отбора эначительны,то процессы случайного генного дрейфа несу- 
щественны. Лишь при слабом отборе и малой эффективной числен- 
ности дрейф может сравниться по результатам с отбором и даже 
превзойти его. Из теории дрейфа следует, что такой пограничной 
точкой является соотношение М,5 = 1, где 5 — коэффициент отбора. 
Если 5 >> 1/№,, то последствия дрейфа незначительны в сравнении с 
отбором и ими можно пренебречь. Если 5 << 1/№., то, напротив, до- 
минирует дрейф и можно обойтись без учета отбора.При коэффициен- 
тах отбора, сопоставимых с 1/№,, необходимо учитывать оба эти 
фактора. В связи со всем сказанным нельзя не коснуться теории 
нейтральности М. Кимура 11985], согласно которой дрейф генов — 
важнейший фактор(наряду с мутационным процессом) молекулярной 
эволюции. Эта теория исходит из того, что при тех значительных 
эффективных численностях, которые характерны для природных 
популяций, лишь почти нейтральные (квазинейтральные) в отношении 
приспособленности аллели, т.е.те аллели, для которых 5 << ПМ. 
могут изменять свою частоту в популяциях. Все вновь возникающие 
мутации можно классифицировать на три группы: селективно вред- 
ные,квазинейтральные и селективно выгодные.Согласно теории нейт- 
ральности, селективно вредных мутаций больше всего, они сразу же 
выбрасываются из популяции. Среди оставшейся небольшой части 
мутаций селективно выгодные мутации, естественно, "подхватывают- 
ся" отбором и становятся основой адаптивной изменчивости. Но ква- 
зинейтральные мутации, которых по теории нейтральности больше, 
чем адаптивно выгодных, тоже могут оказать свое влияние на гене- 
тическую изменчивость в популяции. Действительно, в соответствии 
с теорией дрейфа большая часть вновь возникающих мутаций будет 
элиминирована из популяции. Однако небольшая часть всех этих 


182 


вновь возникших мутаций будет "подхвачена дрейфом и они 
увеличат свою частоту. Именно такие квазинейтральные (5 << М 
мутации, согласно теории нейтральности, являются оснсвой селек- 
тивно нейтральной генетической изменчивости популяций. 

Как следует из неравенства 5 << 1/Ч.,и формулы для М. в . случае 
переменной численности, дрейф может оказаться существенным для 
генной динамики популяций, если хотя бы в одном из поколений 
численность популяции резко уменьшается (“эффект бутылочного 
горлышка"). Правда, по восстановлении численности отбор, если он 
значителен, вернет частоты генов на тот уровень, который отвечает 
существующим соотношениям между приспособленностями геноти- 
пов. Однако для квазинейтральных генов даже одного "бутылочного 
горлышка" может оказаться достаточно, чтобы резко и надолго из- 
менить их частоту в популяциях. Более того, для тех селективных 
ситуаций, в которых может существовать несколько стабильных сос- 
тояний "эффект бутылочного горлышка" может привести к смене 
одного стабильного состояния другим. Оба указанных случая явля- 
ются основой известного "принципа основателя" Э.Майра. 

Перейдем теперь к другому фактору, изменяющему частоты ге- 
нов, — миграции. Представим себе популяции небольшой эффектив- 
ной численнности М,. В нее с интенсивностью т идет поток генов из 
большой популяции. При каких условиях следует учитывать дрейф? 
Как показывает теория, существует некое пограничное значение, оп- 
ределяемое соотношением 4тМ,=1. Если т << 1/(4М№.), то миграциями 
можно пренебречь в сравнении с эффектом дрейфа. Если т >> 1/4№,, 
то дрейф вносит незначительный вклад в динамику частот аллелей и 
его можно учитывать. При сравнимых величинах ти 1(4М,) оба эти 
фактора нельзя рассматривать по отдельности, а только совместно. 

В заключение этого параграфа следует отметить, что уравнения 
динамики в популяционных исследованиях нужны и важны. С их 
помощью мы может теоретически "проигрывать" различные ситуации. 
Конечно, любая модель — это упрощение, но даже и в своем упрощен- 
ном виде она неизмеримо лучше словесных рассуждений. Модель, по 
сути дела, облекает подобные словесные рассуждения в точную фор- 
му, что позволяет оценить степень их объективности. Модель, если в 
ней учтены основные особенности изучаемой популяции, дает адек- 
ватное представление о динамике популяции. И плоха всегда не мо- 
дель сама по себе, плохим может быть подбор модели, когда иссле- 
дователь не учел основных факторов и не ввел их в модель. 

В следующем параграфе мы рассмотрим некоторые теоретические 
проблемы популяционной генетики, используя полученные здесь 
уравнения динамики и следствия из их анализа. 
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$ 3. ГЕНЕТИЧЕСКАЯ ИЗМЕНЧИВОСТЬ 
В ПОПУЛЯЦИЯХ: 
ФАКТЫ И ТРАКТОВКА 


В предыдущем параграфе были рассмотрены модели динамики ге- 
нетического состава популяции. Они позволяют теоретически оце- 
нить направление генетических изменений в популяциях под дейст- 
вием факторов динамики. Однако модели представляют не только 
теоретический интерес. Потенциальная возможность выявить целый 
спектр сочетаний факторов, приводящих внешне к одинаковым ре- 
зультатам, представить альтернативные гипотезы о путях станов- 
ления существующей структуры изучаемой популяции, предложить 
новые концепции популяционной организации видов, правильно 
ориентировать планируемые исследования обеспечивает и большое 
прикладное значение математических моделей. В этом параграфе мы 
коснемся лишь одной из упомянутых сторон — выявления спектра 
популяционно-генетических причин, обусловливающих те или иные 
закономерности наблюдаемой генетической изменчивости попу- 
ляций. 


Полиморфизм 


Основные понятия. Наличие в популяции двух или нескольких 
вариантов данного признака называют полиморфизмом, если их час- 
тота превышает частоту возникновения мутаций. Сам признак при 
этом называют полиморфным. Если речь идет о генетически детер- 
минированных вариантах признака, то его называют генетическим 
полиморфизмом. В дальнейшем, говоря о полиморфизме, мы имеем в 
виду именно генетический полиморфизм. Отсутствие полиморфизма 
называют мономорфизмом, а соответствующий признак — мономорф- 
ным. В гл. 2 напоминалось о том, что в прикладных популяционных 
исследованиях признак считают полиморфным, если частота наибо- 
лее распространенного варианта не превышает условно выбранной 
границы (скажем 0,35 или 0,99); в противном случае его относят к мо- 
номорфным. 

Мономорфизм, "пронизывающий" филетические линии и единый 
для определенной таксономической группы, обусловлен необходи- 
мостью данного варианта признака для жизнедеятельности организ- 
ма. Любые другие варианты будут только уменьшать приспособ- 
ленность и сразу отметаться отбором. Стандартный пример — гисто- 
новые белки. Эволюционно они крайне консервативны, ибо любое из- 
менение первичной структуры сказывается на их функции и являет- 
ся летальным. Для других белков могут быть равноценные варианты, 
характеризующие другие филетические линии. Встречаются, наконец, 
крайне лабильные белки, по первичной структуре которых могут от- 
личаться даже родственные виды. Некоторые из них (особенно фер- 
менты) имеют по нескольку вариантов в пределах вида, популяции, 
отдельных группировок. Последние и являются, по определению, по- 
лиморфными. 
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Что обеспечивает и поддерживает полиморфизм в популяциях? Ко- 
нечно, в первую очередь следует отметить мутационный процесс 
поставляющий" новую изменчивость. Согласно М. Кимура [1985], как 
мы уже упоминали в $ 2 этой главы, можно выделить три типа мута- 
ций соответственно их влиянию на приспособленность: вредные, ней- 
тральные и положительные. По каким из них возможен полиморфизм 
в популяциях и каковы факторы его поддержания? Обсудим это. 
Вредные мутации в популяциях. Как следует из результатов 
анализа уравнений динамики, приведенных в предыдущем параграфе, 
если в данном локусе постоянно возникают мутации одного и того 
же типа, то даже для вредных мутаций их частота в популяции 
устанавливается на уровне, значительно превышающем скорость их 
возникновения |. Действительно, пусть темпы возникновения ауто- 
сомной рецессивной летальной мутации невелики, например р. =10-5. 
Тогда, как было показано в $ 2, "накопленная" частота ее в популяции 


может достичь величины 4, = үр = 3,2. 10-3, те. более шести инди- 
видуумов из 1000 будут гетерозиготными по этой мутации. Таким 
образом, в популяции может наблюдаться полиморфизм даже по 
вредным мутациям. Следует отметить, что рассматриваемые в этом 
разделе выводы справедливы не только для летальных мутаций, но 
для любых мутаций, отрицательно сказывающихся на воспроиз- 
водстве, будь то гибель на ранних стадиях развития и роста или сте- 
рильность. 

Понятно, почему популяции (в том числе и популяции человека) 
насыщены различными "вредными" генами: они поддерживаются му- 
тационным давлением. В такой ситуации ясно, чем может грозить ин- 
бридинг, — он будет резко повышать вероятность того, что оба ро- 
дителя будут гетерозиготными по вредному рецессивному гену. 
Кстати, указанная формула для частоты аллеля легко преобразуется 
в правило, согласно которому в медицинской генетике принято оце- 
нивать частоту мутирования рецессивного летального гена: коли- 
чество пораженных равно частоте мутирования (и = 4?). Это правило 
применимо лишь в том случае, если по данному локусу частота му- 
тантного аллеля достигла стационарного значения, когда установи- 
лось динамическое равновесие между давлением мутаций и проти- 
воположным ему по направлению вектором отбора. 

Указанное правило имеет более общий характер. Пусть а — рецес- 
сивный летальный аллель аутосомного гена, но с неполной пенет- 
рантностью 1, достигший стационарной частоты 4, в популяции с ко- 


эффициентом инбридинга КАК следует из результатов $ 2, справед- 
ливо равенство ы = |(1-Е)4, + Ға«Ш, где выражение в квадратных 


скобках — это доля гомозигот по рецессивному аллелю в популяции 
с коэффициентом инбридинга Ғ. Поэтому правило можно сформули- 
ровать так: 

в стационарном состоянии популяционная частота пораженных 
равна частоте возникновения рецессивной летальной мутации вне 
зависимости от пенетрантности мутантного аллеля и коэффициента 


инбридинга. 
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Рис. 35. Зависимость стационарной частоты 4, рецессивного летального аллеля от 
пенетрантности! и коэффициента инбридинга Ғ 


Таким образом, ни инбридинг, ни пенетрантность не влияют на 
фенотипический состав популяции по рецессивным летальным болез- 
ням: частота заболевания определяется только темпами мутирова- 
ния (напомним, что имеется в виду стационарная частота мутантного 
аллеля). В отличие от доли больных частота вредного рецессивного 
гена зависит от указанных параметров: 4» тем меньше, чем больше г и 
чем больше Ғ. На рис. 35 указана зависимость от 4, ОТ Киг. 

Итак, в популяциях с длительным инбридингом частота рецес- 
сивного летального гена устанавливается с течением времени на 
более низком уровне, чем в популяциях без инбридинга. Но пос- 
кольку вероятность гетерозиготности обоих родителей по этому 
гену выше в популяциях с инбридингом, доля больных и в тех и в 
других популяциях будет одинакова и равна частоте мутирования |, 
что и устанавливает данное выше правило. Вновь напомним, что 
сказанное относится только к стационарному состоянию. При откло- 
нении от него это правило уже неверно. В частности, прекращение 
или снижение инбридинга резко понизят заболеваемость, и тогда 
доля больных здесь окажется значительно ниже, чем в популя- 
циях без инбридинга. Пусть, например, частота возникновения рецес- 
сивных мутаций с полной пенетрантностью р = 10%, а = 0,005. Тогда 
в стационарном состоянии 4х = 1,9. 104. Согласно теории, в стацио- 
нарном состоянии частота заболевания равна р (в нашем случае 
10-9). Переход к панмиксии (точнее к Е = 0), приведет к тому, что уже 
в следующем поколении частота больных станет примерно 4 = 3,6: 
. 10 3 (частота аллеля за одно поколение очень мало изменится). Если 
же инбридинг не исключен полностью, а, скажем, ослаблен до 
Е = 0,002, то частота больных в следующем поколении все равно 


снизится и будет д. (1- Р)+ Ед, = 4,2-1077. Таким образом, говоря о 


частоте рецессивного летального гена, доле пораженных и связи их 
с темпами мутирования, всегда следует отдавать отчет себе в том, 
находятся исследуемые популяции в стационарном состоянии или 
нет. В частности, как следует из выводов % 2 и рассмотренных здесь 
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примеров, флуктуации коэффициента инбридинга обусловливают 
нестационарность популяции. В таких ситуациях оценка соотноше- 
ний между популяционно-генетическими параметрами (4, ши Е) 
должна производиться на основе уравнения динамики ($ 2), а не на 
гипотезе стационарности. 

Рассмотрим теперь доминантные вредные мутации. Как следует из 
формул $ 2, их распространенность в популяции определяется коэф- 
фициентом отбора против гетерозигот (т.е. пенетрантностью), а 
интенсивность отбора против мутантных гомозигот в установлении 
популяционной частоты роли не играет. Это понятно, ибо при низких 
частотах мутаций они встречаются в основном только В 
гетерозиготном состоянии. Из $ 2 следует такжечто доминантные 
мутации даже с низкой пенетрантностью встречаются гораздо реже, 
чем рецессивные летали. Докажем это. Пусть скорость возникновения 
мутаций будет р = 10—6. При таких темпах мутирования частота 
рецессивной летальной мутации даже при полной пенетрантности 


ожидается 4х = 11076 = 10-3. Если же мутация частично доминантна, 


а коэффициент отбора против гетерозигот (пенетрантность) мал, 


скажем 5-0,01, то частота ее 4+. + Ц/5< 10-5 /1072 104 т.е. на 
порядок меньше рецессивной летальной мутации. Однако следует 
отметить, что для популяции относительный "вред" от доминантных 
мутаций все же больше, чем от рецессивных летальных генов, 
несмотря на их меньшую частоту. Полученные на основе моделей 
динамики выражения это строго доказывают. Действительно, как 
было сказано, доля больных рецессивным заболеванием в 
стационарном состоянии равна частоте возникновения мутаций. Для 
доминантного заболевания общая доля больных 2р45 = 245 = 2, т.е. 
равна удвоенной частоте возникновения мутации (гомозиготных 
больных практически не наблюдается, ибо ихчастота в популяции 2, 
т.е. крайне малая величина по сравнению с частотой гетерозигот). 
Итак, при одних и тех же темпах мутирования процент больных с до- 
минантными мутациями в 2 раза больше, чем процент больных рецес- 
сивнъми заболеваниями (в стационарном состянии).. 

Мы видим, что мутационный процесс поддерживает, хотя и на низ- 
ком уровне, изменчивость по вредным аллелям. При этом частоты та- 
ких аллелей могут подняться до порогового полиморфного уровня 
лишь для рецессивных мутаций и то при невысокой их пенетрант- 
ности. Пусть например, темпы мутирования қы = 105 и принятая 
"пороговая" полиморфная частота нормального аллеля 0,99. 
Полиморфизм по мутантному рецессивному аллелю будет отмечен, 


если „ци /г > 1- 0,99 т.е. если пенетрантность г будет меньше 0,1. При 


р> 10-4 всегда будет наблюдаться полиморфизм по аллелям с такой 
пенетрантностью (на пороговом уровне 0, 99). На фенотипическом же 
уровне, в данном случае по частоте мутантных фенотипов, о по- 
лиморфизме говорить не приходится, так как это частоты на уровне 
темпов возникновения мутаций. Поэтому для несильно вредящих 
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мутаций ситуация с полиморфизмом двойственна: патология не вхо- 
дит в рамки нормальной фенотипической изменчивости популяций, 
но мутантные аллели могут достигать высокой частоты и влиять на 
общий уровень аллельного полиморфизма популяций. 

Полиморфизм при положительном отборе. Если мутантный 
аллель не уменьшает приспособленность особей по сравнению с нор- 
мальным фенотипом, а напротив, увеличивает ее в гомо- или гетеро- 
зиготном состоянии, то говорят о положительном отборе: Именно 
положительный отбор может обьяснить селективно обусловленную 
генетическую изменчивость популяций. Полиморфизм по нейтраль- 
ным аллелям мы обсудим позже. 

В то время как для вредных аллелей условием сушествования в 
популяциях является постоянное их "воспроизводство" благодаря 
мутационному процессу, для "положительных" аллелей условием их 
поддержания с достаточно высокой частотой является отбор. Пусть 
частота аллеля а мала. Как было показано в $ 1, алелль а не исчезнет 
из популяции, если приспособленность гетерозигот Аа больше 
приспособленности частых гомозигот АА, т.е. 5 > 0 где; — 
коэффициент отбора против АА. Если гомозигота аа имеет еще 
большую приспособленность, чем гетерозигота, т.е. если для аа 
коэффициент > отбора! < 0, то полиморфизм в популяции будет 
наблюдаться до тех пор, пока аллель А полностью не вытеснится. 
Такой полиморфизм называют переходным. Однако если ! > 0, то 
аллель А также остается в популяции. 

Итак, полиморфизм по аллелям Аиа устойчив, если 
приспособленность гетерозиготы Аа больше приспособленностей 
обеих гомозигот АА и аа, т.е. если одновременно 5 > Оиг> 0. Как 
показано в $ 2, стационарная полиморфная частота р* = (5+1). При 
этом состояния фиксации неустойчивы, т.е. как бы ни была мала 
частота р аллеля А, она будет увеличиваться в сторону полиморфной 
частоты р,; если чатота р велика, то она будет уменьшаться в ряду 
поколений, также стремясь к устойчивому полиморфному состоя- 


нию р*. 
Таким образом, одно из объяснений существования устойчивого 
генетического полиморфизма — отбор в пользу гетерозигот 


(сверхдоминирование по приспособленности). Однако объяснение это 
еще не убедительно, ибо оно основано на простейшей модели отбора, 
в которой приспособленности генотипов считаются неизменными. А 
что если в течение жизни популяции направление отбора меняется 
из поколения в поколение? Каково в этом случае условие 
стабильного полиморфизма, т.е. устойчивого сохранения аллелей? 
Пусть 51,4 — коэффициенты отбора в первом поколении, 52, {> --ВО 
втором, 53, із — в третьем и т.д. Допустим, что 51 > 0,1, < 0, т.е. что в 
первом поколении отбор направлен на вытеснение аллеля А, а во 
втором поколении, напротив, 52 < 0, 2 >0 ит.д. Как следует из $ 2 
этой главы, аллель а будет стабильно поддерживаться в популяции, 
если логарифмическое среднее $ всех 5; больше 0, т.е. если $>0. 


Логарифмическое среднее 2 обладает основным свойством средних, а 
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именно оно является промежуточной величиной по отношению ко 
всем 5; , т.е. 


А 
За < 5 < бах: 


Аналогично этому аллель А не исчезнет из популяции, если лога- 
рифмическое среднее всех г, большенуля: {> 0. 

Итак, условие стабильного существования в популяции аллелей А 
иа заключается в том, чтобы логарифмические средние коэффициен- 
тов отбора были положительны: 


$>0, 7> 0 


Этот вывод очень важен. Он по форме напоминает рассмотренный 
ранее случай сверхдоминирования по приспособленности, но 
качественно отличается от него тем, что допускает флуктуации 
направления отбора, т.е. сверхдоминирования в пределах каждого 
поколения вообще может не быть, но полиморфизм в популяциях 
может стабильно существовать. 

Рассмотрим иную ситуацию: вектор отбора разный в разных груп- 
пировках, составляющих популяцию. Обсудим простейший ее вари- 
ант, когда все & группировок каждое поколение "перемешиваются". 
Пусть доля і-й группировки г; (7; + 7о +... + у = 1), а коэффициенты 
отбора в ней 5; и ; Анализ уравнения динамики ($ 2) показывает, что 
аллель а будет поддерживаться в популяции, если 3 > 0, где; 
определяется из формулы 


А 
Величина 5 также является усредненным значением величин 5, 
52...» 5% В Том смысле, что 


ажет 


Точно так же можно определить среднее значение коэффициентов 
отбора {и показать, что аллель А будет стабильно существовать в 
популяции, если %>0. 

Теоретический анализ уравнений динамики и в более обших слу- 
чаях приводит нас к следующему важному выводу: стабильное сущес- 
твование полиморфизма на селективной основе не обязательно связа- 
но с отбором в пользу гетерозигот (т.е. не обязательно 5; > 0, 1; >0 в 
каждом поколении и в каждой группировке). Вектор отбора может 
колебаться во времени и в пространстве, и для существования устой- 
чивого полиморфизма требуется лишь, чтобы “в среднем" (во времени 
и в пространстве) приспособленность гетерозиготы была выше прис- 
пособленности гомозигот: $ > 0,? >0. 

Этот вывод существенно отличается от гипотезы сверхдоми- 
нирования по приспособленности (иногда говорят — гипотеза гете- 


розиса, редко — стабилизирующего отбора). Он позволяет более 
объективно объяснять наблюдаемый полиморфизм. Например, если в 
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данной локальности эксперимент показывает, что отбор м 
против аллеля а (т.е. 5 < 0, 1> 0), а полиморфизм тем не ра > - 
дается, то с позиций гипотезы сверхдоминирования это нео ар е 
мо. Однако на самом деле возможны и другие причины. Основны и 
них следующие: или разнонаправленный отбор в разных ие г 
группах в пределах одного поколения, или колебания коэф оа 
тов отбора из поколения в поколение , или же разнонаправл о 
векторов отбора в соседних группировках, миграционно свя 
й группировкой. 
ВИ ром Фа столкнулись с ситуацией, иерей 
популяционной биологии и популяциончой генетики, — неодно аи 
ностью объяснений одного и того же явления, в данном ви 
полиморфизма. Зто, конечно, представляет определенные и пи 
для исследователя, но, с другой сторони, стимулирует и Ы зей 
ленно подойти к сбору данных, их анализу и попара кт 
тической трактовке результатов, а в итоге позволяет более поле 
выявить популяционную структуру изучаемого вида и осн 
-генетические факторы. 
д Е могут появиться новые вопросы, связанные св 5 
выявлением механизмов отбора. Например, изменение вектора ої д 
во времени (или на ареале) может быть обусловлено Е (ав 
плотностно-зависимым отбором, изменением абиотических пар аи 
ров (температури, влажности, Сарата и др.), местом популяци 
оценозе, конкуренцией и т.д. 

на ЕЕЕ Кратко обсудим еще КоА И 
причину полиморфизма — генный дрейф. Теория нейтрал ДЫ та 
въдвинутая М.Кимура [1985] и развитая в его трудах и труд СНИ 
последователей, имеет солидную теоретическую базу и 5. Да и 
влетворительное подтверждение в фактах молекулярно чарта 
Суть теории нейтральности заключается в том, что основными 2 
рами динамики нейтральных и квазинейтральных мутаций с Ты 
мутационный процесс и генный дрейф: мутационный ар Ер 9 
от времени "поставляет" в популяции нейтральные и АШ 
нейтральные аллельные варианты, а генный дрейф га. 
элиминирует большую часть их) изредка — в СИЛУ и 
стохастических причин - значительно увеличивает частоту волое 
до фиксации. Процесс дрейфа очень медленный, длится сотни т 2 
и более поколений (в зависимости от численности пота 
поэтому полиморфизм по нейтральным аллелям Мона вн е 
выглядеть стабильным (в течение жизни исследователя). курс и 
коэффициенты отбора объчно невелики, то, конечно, простые = 
не всегда способны различить селективную и нейтральную ситуац г, 
Позтому очень часто имеющиеся данные по популяционнов ща < 
туре могут трактоваться С "нейтралистских", так и с селе са ; 
нистских" позиций. Важно иметь в виду, что это говорит о неза р. 
шенности исследования, необходимости направленного сбора мате 
риала и постановки специальных экспериментов с целью выбора меж 
ду этими альтернативными гипотезами. 
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Частоты генотипов 


Исходной характеристикой выборки являются частоты фенотипов; 
а если мы знаем генетическую детерминацию признака — то и часто- 
ты генотипов. В этом разделе мы обсудим начальную задачу анализа 
изменчивости выборки: проверку соответствия частот генотипов 
соотношениям Харди-Вайнберга и популяционно-генетическую трак- 
товку такого соответствия или несоответствия. 

Принцип Харди —Вайнберга. В $ 2 этой главы мы теоретически 
исследовали закономерности изменений частот генов и генотипов в 
популяциях под действием различных факторов. Возникает вопрос, 
что будет с частотами генов, какими будут частоты генотипов, если 
давление всех этих факторов невелико и ими можно пренебречь? Как 
следует из полученных уравнений (например из уравнения для 
отбора, если положить ѕ = 0,1 = 0), частоты генов в поколениях при 
этом не меняются (р! = р), а частоты генотипов на любой стадии онто- 
генеза в поколении {+ 1 такие же, что и у зигот (т.е. р2, 2р4, 42 для 
генотипов АА, Аа, аа). Это и есть так называемый закон Харди- 
Вайнберга. 

В ряде монографий и руководств по генетике популяций указыва- 
ется на "закон" Харди--Вайнберга как на важное теоретическое обоб- 
щение и реальное соответствие ему природных популяций. Это мето- 
дологически ошибочное утверждение. Особенно способствует неточ- 
ному представлению установившийся термин "закон". Следует иметь в 
виду, что сформулированный в корректной форме этот "закон" пост- 
роен в виде логической конструкции, которую следует скорее наз- 
вать теоремой в математическом смысле этого слова, а не законом — 
в смысле биологического явления. Теорема эта звучит следующим об- 

разом: если изолированная популяция диплоидных организмов 
имеет бесконечную численность, нет отбора по аутосомному локусу 
саллелями А иа, а скрещивание в популяции случайно по отношению 
к этому локусу, то при отсутствии мутаций частоты этих аллелей в 
популяции остаются неизменными в ряду поколений; частоты этих 
генотипов при этом: р2-- для гомозиготы АА; 2р4 — для гетеро- 
зиготы Аа; 42 — для гомозиготы аа. 

Эту теорему иногда еще называют принципом Харди-Вайнберга. 
Указанные пропорции генотипов называются соотношениями Харди- 
Вайнберга (или Кастла-Харди Вайнберга [Ли, 1978]). Часто эти соотно- 
шения записываются как р? : 2рд : 4? (соответственно генотипам АА, 
Аа, аа). Если аллелей не два, а несколько, формулировка теоремы 
остается прежней; при этом соотношения частот генотипов следу- 
ющие: рї — для гомозигот АА; 2рр; — для гетерозигот АА, 

Из самой формулировки теоремы видна нереальность ситуации: 
полная изоляция, отсутствие отбора, бесконечная численность — та- 
ких популяций в природе не существует. Принцип Харди--Вайнберга 
описывает идеализированную математическую ситуацию, являю- 
щуюся своего рода точкой отсчета, “абсолютным нулем" для популя- 
ционной структуры, которая характеризуется отсутствием система- 
тических и случайных факторов по данному локусу. 395 


Следует иметь в виду, что наличие в реальной популяции соотно- 
шений Харди-Вайнберга еще ни о чем не говорит, даже если выборки 
достаточно велики. В частности, не говорит это и © простой ге- 
нетической природе признака, к чему нередко аппелируют в целях 
доказательства моногенности признака. Не говорит это и об отсутс- 
твии селективных сил. Например, если на ранних стадиях онтогенеза 
идет отбор в пользу гетерозигот, а на поздних стадиях отбор разно- 
образящий (или есть инбридинг или ассортативность скрещивания), 
то в старших возрастных группах может наблюдаться соотношение 
частот генотипов, близкое к тому; что ожидается по Харди-Вайн- 
бергу. Однако наличие такого соотношения будет здесь связано нес 
отсутствием каких-либо факторов популяционной динамики, а, нап- 
ротив, с разнонаправленным действием нескольких факторов. Но 
чаще всего соответствие экспериментальных данных соотношениям 
Харди-Вайнберга связано с тем, что во многих случаях интенсив- 
ность популяционно-генетических процессов (будь то отбор, мигра- 
ции или случайное скрещивание) невелика. Поэтому они не вносят 
значимо различимых изменений в частоты генов и генотипов и не мо- 
гут быть обнаружены статистическими методами в пределах одного 
поколения |5сһаар, 1980], хотя само действие этих процессов мож т 
сильно преобразить генетический состав популяции в длинном ряду 
поколений. Лишь в тех случаях, когда есть сильное смешение группи- 
ровок, очень сильный отбор, значительное отклонение от случайного 
скрещивания и т.п., только тогда может выявиться отклонение в рас- 
пределении частот генотипов от тех соотношений, что указываются 
принципом Харди—Вайнберга. Таким образом, соответствие соотно- 
шениям Харди—Вайнберга не свидетельствует об отсутствии популя- 
ционно-генетических факторов. Однако отклонение от распределе- 
ния Харди—Вайнберга говорит о значимости происходящих в попу- 
ляциях процессов. Поэтому важно тестировать отклонения частот 
генопитов от соотношений Харди—Вайнберга. 

Статистическое тестирование на соответствие соотношениям Хар- 
ди — Вайнберга обсуждалось в гл. 2. Если тест указывает на значимые 
отличия, то следует выяснить причины, обусловившие отклонение от 

распределения Харди—Вайнберга. Рассмотрим вначале случай дефи- 
цита гетерозигот, когда фактическая численность гетерозигот мень- 
ше теоретически ожидаемой по Харди-Вайнбергу. 

Дефицит гетерозигот. Имеются методические причины, приво- 
дящие к неверному заключению о дефиците гетерозигот. Например, 
при наличии нуль-аллелей гетерозигота по нормальному аллелю и 
нуль-аллелю может восприниматься на электрофореграмме как нор- 
мальная гомозигота. Иногда возможны погрешности: методики, 
приводящие к недостаточному электрофоретическому разрешению; 
при этом полосы на электрофореграмме сливаются и гетерозигота 
"считывается" как гомозигота. 

Теперь мы рассмотрим популяционно-генетические причины, 
объясняющие дефицит гетерозигот. Основные из них: смешение в вы- 
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борке особей из генетически различающихся группировок, отбор 
против гетерозигот, ассортативное скрещивание и инбридинг. 
Обсудим первую причину. Вполне вероятны ситуации, когда в вы- 
борке смешаны особи из нескольких группировок, различающихся 
частотами аллелей. Обозначим ру, ро...., ру — частоту аллеля А в этих 
группировках. Пусть в каждой из них выполнен принцип Хар- 
ди—Вайнберга. Тогда частоты гомозигот АА в них будут соответст- 


2 2 
венно р),р2».» Рь. Если в выборку попадают особи из всех к 
%2 К 
группировок, то частота аллеля А в выборке р= Уур; а 
е 


ігі 
фактическая частота гомозигот АА в ней соответственно 


БЕ 2 
Руд = > ур ‚ Здесь и; — доля в выборке особей из і-й группировки 
е 


(у; = 1); если эти доли, к примеру, равные, то р = Ўр, Руд = 102 
2 Де 


Очевидно, что ожидаемая по Харди-Вайнбергу частота гомозигот 
АА будет р? и она не равна Рад Алгебраические выкладки 
показывают, что частота гомозигот АА в смешанной выборке Рдд= Р+ 
+ П,гдеО — дисперсия аллельных частот в группировках: 


к 03 
р= УаЦи-?) 
іш 


Аналогично фактическая частота гомозигот аа: Р,„= 4 + Р, а 
гетерозигот: Рд, = 2р9 - 20. 5 

Значит, если даже в каждой из группировок соблюдались соотно- 
шения Харди-Вайнберга, то в смешанной въборке зти соотношения 
нарушаются: возникает дефицит гетерозигот, который тем значитель- 
нее, чем сильнее различаются группировки. Дефицит гетерозигот 
обусловленный гетерогенностью группировок, носит название эф- 
фекта Валунда. Эффект чисто статистического характера; гетерозигот 
меньше, чем это ожидается при гомогенности группировок. 

Более того, пусть в каждой из субгруппировок имеются отклоне- 
ния от соотношений Харди —Вайнберга в ту или иную сторону в силу 
каких-либо причин (например, инбридинга), т.е. в і-й группировке 
частота гетерозигот Аа равна 2(р;4;+ү). Величина ү; — показатель 
отклонения: если 7; < 0, то имеется дефицит гетерозигот; если ү; > 0, то 
это эксцесс гетерозигот; обозначим ў его среднее значение в этих 
группировках. Точно так же можно показать, что в смешанной вы- 
борке фактическая частота гетерозигот: Ра, = 2р1 2(р ~ 4), 

а гомозигот: Рад = Р? + (№ 7), Раа = 42 + (р ~ %). 

Из этих формул следует такое общее заключение: если группировки 
гетерогенны по частотам аллелей, то в смешанной выборке увеличи- 
вается дефицит гетерозигот по сравнению с его средним значением 
внутри каждой группировки. Кстати, не исключена ситуация, когда в 
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группировках может быть в среднем эксцесс гетерозигот (у > 0). 
Однако в смешанной выборке он может нивелироваться, а может и 
обратиться в дефицит; все зависит от соотношения величин Пи. 
Таким образом, одна из причин дефицита гетерозигот — смешение 
в выборке особей из генетически различающихся группировок. Поэто- 
му исследователь должен позаботиться о сведении к минимуму сме- 
шения материала: проводить сбор на ограниченной территории в ог- 
раниченнов время; анализировать раздельно по полу, возрасту и т.п., 
если половозрастные или иные группы особей различаются по анали- 
зируемым признакам. Конечно, смешение может быть вызвано и 
объективными причинами. Например, в одной устричной друзе могут 
находиться особи с географически (и экологически) разным проис- 
хождением, так как перед оседанием планктонную личинку может 
унести течением на десятки километров. Но в таком случае эффект 
Валунда может быть следствием пространственной генетической ге- 
терогенности популяций и их миграционного взаимодействия. 
Другая возможная причина дефицита гетерозигот — отбор против 
гетерозигот, когда приспособленности гомозигот больше, чем гете- 
розигот (т.е. 5 < 0, { < 0 в случае двух аллелей). Например, в усло- 
ой конкуренции гетерозиготные особи, 
имеющие большую скорость роста на ранних стадиях развития и тре- 
бующие больших энергетических затрат, оказываются в худшем поло- 
жении и их жизнеспособность может оказаться меньшей. Отбор про- 
тив гетерозигот "в чистом виде" встречается редко. Чаще следует 
ожидать ситуаций, когда высока микрогетерогенность условий сре- 
ды, в которой обитает данная группировка, и в разных "нишах" макси- 
мальной приспособленностью могут обладать разные гомозиготы. 
Если при этом приспособленность к нише является рецессивным 
признаком, т.е. если гетерозиготы почти также плохо приспособ- 
лены в данной нише, как и неадаптивная здесь альтернативная гомо- 
зигота, то в выборке это может выглядеть как минимальная приспо- 
собленность гетерозигот (4 < 0, < 0), даже если в каждой из ниш их 
приспособленность и не минимальна. Различение подобных ситуа- 
ций непросто, однако отбор по нишам — реальная причина дефицита 
гетерозигот и как возможное объяснение ее нельзя отбрасывать, хотя 


бы косвенно не проверив. 
Следующая возможная причина д 
тельное ассортативное скрещивание и инбридинг. Для ее проверки 


необходимо исследование генотипов родителей или анализ родос: 
ловных (см. $ 2 этой главы). В частности, если в зоне контакта двух 
генетически различающихся популяций (форм, подвидов) происхо- 
дило их скрещивание, но частота таких "гетерономных" скрециваний 


меньше, чем частота скрециваний между особями "своей" популяции, 
то в выборке будет наблюдаться де 


виях напряж енной пищев 


ефицита гетерозигот — положи” 


фицит гетерозигот. Это следствие 
и смешения, и положительной ассортативности скрещивания. 
Эксцесс гетерозигот. Увеличение частоты гетерозигот или, как 
говорят, эксцесс гетерозигот, в выборке (по сравнению с ожидаемой 
по Харди--Вайнбергу), если оно не случайно ситуация, встречаю- 
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щаяся реже, чем дефи 
Е цит гетерозигот. Осно. 
пе : вные популя - 
ические причины зксцесса гетерозигот — это об а. 
дизация. Рассмотрим их по порядку еі 
Перв 
те С причина — отбор в пользу гетерозигот: 5 > 0 
2. Две ее — это постановка экспериментов по оценке коэф- 
222 ыы па как и в случае с дефицитом гетерозигот 
ложниться гетерогенност 
от ью среды. Если приспо- 
ке ши к нише является доминантным признаком (т.е. в ждет 
и ерозиготные особи имеют почти такую же приспособлен 
2. бае и гомозиготы , что наиболее приспособлены к ней), то в 
м нишам это будет в 
по приспособленности (5 > 0 7> Твен уви а 
, , ив 
гетерозиса может не быть (см. 2) ынаны 
Экс . 
Е И может вызываться и направленным отбором 
х случаях приспособле 
а нность гетерозигот иногда оши- 
ают за максимальную. Пояс | 
Е ним зто на услов 
ре. Пусть в популяции и А а 
меется рецессивный лет" т Й 
в ный аллель а, час- 
оро в данном поколении 0,1; частота ее Иан 
иет анн 0,9. Так как приспособленности АА, Ад и аа равны 1,1 и 
ои соно выводам $ 2, частоты этих генотипов в следующем по- 
ЭЕ Ва ни Теперь давайте применим к зтим частотам 
—Вайнберга. Имеем: частоты Й | 
АРА : аллелей Аиа равны 
Я 091. довательно, ожидаемые п 
да қ о Харди--Вайнбе 
4-77 АА, Аа и аа: 0,826; 0,165 и 0,008. Мы видим о 
5 шак доля гетерозигот (0,182) выше ожидаемой (0,165) И хотя 
аи дуе по он реально существует и в выборках достаточно 
оси не , > 400—500) будет обнаружен. Это наглядный 
приона ной ошибки в интерпретации эксцесса гетерозигот: 
Рае о преимуществом гетерозигот (на нее указывал Р Ле- 
варии ‚ Действительно, если мы разделим фактические частоты 
сон их теоретически ожидаемые, а затем нормализуем их к 
песа му отношению для гетерозигот (тем самым приняв ее 
оо ленность за 1), то получим, что приспособленность гомо - 
АКСАР Ва 0,3 (1), хотя на самом деле она также равна 1. Такое 
закрие Серан донеса к неверному выводу о сверхдоминиро- 
ленности, вызвано тем, чт 
Я ‚ что частоты ал й на- 
ходятся не в стационарн а. 
ом состоянии; они изме 
мы пытаемся описать их п | И 
ринципом Харди--Вайнбе 
г Е 
Де лишь для стационарной фазы популяции ен 
с а 
5 ый оооло омар фактор, приводящий к эксцес- 
2. Ы ва — это гибридизация. Пусть имеется две родительские 
ая ‚ частоты аллелей А и ав которых р., 41 и ро, 42, соответст- 
кг - огда частота гетерозигот в поколении гибридов Ё}: р142 + 
и: Са ша время гетерозиготность, теоретически ожидаемая СЕ 
п а — Вай 
ааа ще ні р 4. 2ра, гдер и 4 — частоты аллелей у гиб- 
Е 1 ры ,9 = (9 + 92)/2. Очевидно, что |142 + р:41 > 2ра;это 
енно объясняет эксцесс І 
гетерозигот п б 
ан. ри гибридизации. 
дует иметь в виду, что эксцесс гетерозигот будет наблюдаться 
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именно среди гибридных особей из Е. Если же взять 25 а 
гибридизации любые особи генетически а, НА, 
такой выборке, напротив, будет дефицит гетерози а Ой е: 
указывалось в предыдушем пункте. И еще одна возможная 12 наи 
зксцесса гетерозигот в популяциях — отрицательное аа ареала: 
скрещивание, когда предпочитают прие пары, ген 
нному признаку особи. 

а олесна ПӘ о. Частоты типов гамет, а са 
тельно, и генотипов по двум или большему числу генов мо ад 
разными при одних и тех же частотах аллелей в зависимости ВЕ 
есть или нет неравновесия по сцеплению. Оно та сие 
что обусловлено относительно небольшими возможными е еа 
нами по сравнению с выборочными ошибками. Поэтому аа 
кратко коснемся возможных е возникновения ненулев 

весия по сцеплению Џ. 
ан неравновесия по сцеплению может быть опори 
не только отбор, все важнейшие факторы и дин И 
приводящие к изменению частот генов и генотипов, о усет Ше. 
неравновесие популяций по системам полиморфных поща и 
мер, стохастические процессы, вызываемые ограниче оазисы 
ностью популяции, приводят к случайно возникающим а И Б 
неаллельных генов. И хотя ожидаемое при дрейфе генов зн р 
будет равно 0, дисперсия Уақ) будет отлична от нуля, и ра Бетін 
чем меньше численность популяции М и чем меньше частота р 
бинации г между генами ІНІ, 19745}: 


Уаг (Р) = (рарорврь И + 4№) (2 - г). 


Если численность популяции невелика, а сцепление НЕ 
то для некоторых пар локусов стохастически аю р > 
ции могут быть заметны. Например, если М = 100, аг= 0, До д 
равных частотах аллелей Уаг() = 0,0062, что ея 21 іі 
ожидаемому значению коэффициента межлокусно са на 
р = 0.3! При столь сильном сцеплении, как 0,01, такие ассоци ео 
никают в течение определенного числа поколении и разру ; 

же несразу. 

НИЕ Аа популяции и наличие а 
также могут привести к неравновесию по сцеплению. в. 52 
мен мигрантами между популяциями, изначально находи па 
равновесии, но различавшимися по частотам генов, ведет к ЕЕ 
нию Б от 0. Подразделенность популяций в сочетании с огран тегі 
ной численностью каждой из субпопуляций тем более о. р ын 
вести к этому (11, Ме, 1974]. Неравновесие по сцеплению може ря 
виться и при смешении в одной выборке особей из ны бедна 
чающихся популяций. Это было использовано, пори: ас та 
нии долей симпатричных ВИДОВ-ДВОЙНИКОВ В выборках 5-ге ааа 
агазоп, 1977]. Аналогично действию миграции и ассортати Е СЕ р 
щивание "смешивает" генетически различающиеся части гопуз с А 
приводит кр #0 Ш.әлде, 19771. Имеются косвенные и ҚЫН 
ционный процесс может обусловить неравновесие (Мика е: а!., с 
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Все указанные причины хотя и могут привести к неравновесию по 
сцеплению, но из-за рекомбинации значения П слишком малы, чтобы 
статистические тесты могли его зафиксировать (см. гл. 2). Однако у 
видов с самооплодотворением или размножающихся апомиктически 
следует ожидать накопления из поколения в поколение адаптивных 
комбинаций генов, не разбиваемых кроссинговером. И действительно, 
исследования на ячмене Ногдешт ушраге позволили выявить это ІСіерр 
еі а1., 1972; Мен ег а|., 1974; Мпопа, 1982]. 

Ячмень — облигатный самоопылитель, перекрестное оплодотворе- 
ние — не более 1Х. Поэтому из поколения в поколение гибридная по- 
пуляция распадается на ряд гомозиготных линий и со временем рас- 
тения с наиболее адаптивными генотипами понемногу вытесняют ос- 
тальных особей. Следовательно, "интактность" хромосом помогает 
аккумулировать таким генотипам даже небольшие преимущества, до- 
водя их за многие поколения до ощутимых величин. Такое бывает не 
только у растений, но и у тех животных, фаза полового размножения 
которых сменяется амейотической. Например, в партеногенетичес- 
ких линиях ОгозорПа тегсаіогит отмечены сильные зпистатические 

взаимодействия по приспособленности между локусами, определяю- 
щими как морфологические изменения, так и изменчивость одной из 
эстераз [Аппеѕі, Тетреюп, 1978]. У Барһпіа тарпа, вида с циклическим 
партеногенезом, неравновесие по сцеплению у ферментных локусов 
нарастает в партеногенетических поколениях, но затем уменьшается 
при переходе к половому размножению [Уоипр, 1979]. Отмечены зна- 
чительные ассоциации по полиморфным локусам и у микроорганиз- 
мов: Еѕсһегісћа сон [Мат ег а1., 19831, ВасШив өші [бгаһат, 191юск, 
19791. 

Результаты, полученные, скажем, на партеногенетических видах, 
нельэя трактовать так, будто у них дифференциальная элиминация 
выражена сильнее, чем у видов, для которых характерна та или иная 
степень панмиксии, Вполне возможно, что изученные локусы (или 
очень тесно сцепленные с ними) являются частью единой полигенной 
системы. Суммарно по этой системе может идти значительный отбор, 
лишь малая доля которого приходится на изучаемые локусы. Но зато 
эти небольшие различия выявляются, накапливаясь из поколения в 
поколение за счет "интактности" генома. Надо полагать, что роль 
гаметического неравновесия велика в полигенных системах: неболь- 
шие, практически не выявляемые ассоциации по отдельным парам ло- 
кусов могут суммироваться в ощутимые изменения в уровне геноти- 
пической и фенотипической изменчивости признаков даже для пе- 
рекрестнооплодотворяемых организмов [Животовский, 1984]. 


Подразделенные популяции 


То, что популяции подразделены, не вызывает никаких сомнений, 
поскольку их структурированность была ясна уже на заре популя- 
ционной генетики, когда С. Райтом были рассмотрены "островные" 
модели и предложена микрозволюционная концепция "смещающегося 
равновесия" для подразделенных популяций. 
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Разбирая в $ 2 этой главы понятие панмиксии, мы пришли к заклю- 
чению, что с генетических позиций популяция является подразде- 
ленной, если между составляющими ее группировками есть генети- 
ческие различия; т.е. популяция является генетически подразделен- 
ной, если есть генная дифференциация группировок, составляющих 
эту популяцию. Наличие генетической подразделенности означает 
генетическое своеобразие группировок, их уникальность. Отсутствие 
генетической подразделенности означает единообразие группиро- 
вок, их генетическое подобие. 

В данном разделе мы рассматриваем в первую очередь степень 
дифференциации и обусловливающие ее факторы. Пусть популяция (с 
позиций данного в $ 1 этой главы определения) выделена и С — сте- 
пень ее дифференциации по изученным признакам (см. $ 4 гл. 2). Каж- 
дую популяцию можно условно отнести к одному из трех типов: 
популяции с отчетливой генетической подразделенностью — конт- 
растная генетическая структура (большие значения С); популяции без 
генной подразделенности — гомогенная структура (незначимые ве- 
личины С); популяции с умеренной генетической подразделен- 
ностью — умеренная структура. Популяцию следует отнести к одно- 
му из трех типов, сравнивая С сзаранее выбранными пороговыми ве- 


личинами С“ и Си: 


Контрастная Умеренная Гомогенная 
структура структура структура 
в>с“ 6*>6>6* с<с. 


Пороговые уровни Съ и С“ выбираются, конечно, условно (как 
и пороговые уровни для определения полиморфизма локуса). 
Например, можно взять С. = 15, С* = 10%. И конечно, неравенства в 
указанной схеме типов подразделенности следует проверять 
статистически (с использованием статистической ошибки оценки б). 
Хотя выбранные пороги С. и С* условны и можно взять другие, они 
позволяют независимо от конкретных значений хоть как-то 
упорядочить систему описания генной подразделенности 
популяций. 

Популяционно-генетические факторы, которые были обсуждены 
выше и которые определяют характер генетического разнообразия 
внутри отдельной небольшой группировки (и в представляющей ее 
выборке), обусловливают также сходство и различие между группи- 
ровками. Однако характер действия этих факторов на внутригруп- 
повую и межгрупповую изменчивость неодинаков. В частности, гене- 
тическая дифференциация группировок во многом определяется 
степенью изоляции (т.е. коэффициентами генной миграции между 
ними); в то же время изоляция неиграет особой роли в пределах 
небольших группировок. Систему миграционно взаимодействующих 
группировок назовем подразделенной популяцией. В генной дина- 
мике подразделенных популяций большую роль играют, помимо миг- 
раций, отбор и, возможно, случайный генный дрейф. Уже этих факто- 
ров достаточно, чтобы при отсутствии точных оценок их (а это обыч- 
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ная ситуация в популяционно-генетических исследованиях) при- 
вести к альтернативным трактовкам наблюдаемой генной Ей. 
циации и группировок. Возможные особенности наблюдаемой генной 
дифференциации и их альтернативные теоретические объяснения 
составляют предмет нашего дальнейшего обсуждения. 

Каковы центробежные факторы, вызывающие генную дифференциа- 
цию, и факторы центростремительные, нивелирующие ее? В $ 2 данной 
главы эти факторы, по сути дела, были уже рассмотрены. Основные и 
них представим в виде следующей схемы: | р 


Центробежные факторы: Центростремительные факторы: 


1. Локальный (дифференцируюций) 
отбор 


1. Глобальный (гомогенный) 
отбор 


2. Случайный дрейф генов 2. Генная миграция 


Помимо этих основных факторов становления генетической струк- 
туры подразделенных популяций, можно указать и другие а 
возможна неслучайная миграция, когда из группировок мигри за 
особи определенных генотипов и соответственно иммигрируют < е 
иные, "альтернативные" генотипы. Такая миграция не сближает груп- 
еее Ее он дифференцирует их. Возможна ситуация, когда 
аар и из другой популяции с иным распределением ге- 

А ‚ чем в рассматриваемой популяции. Это, конечно, приводит 
к большим отличиям этих группировок от остальных частей подраз- 
деленной популяции. Однако в такой ситуации следует обе поп Ны; 
ге рассматривать в рамках одной популяционной системы. И 
В и неслучайной миграции, к большей дифференциации может 
р мутационный или рекомбинационный процесс, которые 
вкупе с дрейфом генов в малочисленных группировках или с 256 = 
ром способны обеспечить различие между группировками по ин 
генотипам. Строго говоря, эти факторы генетической дифференциа- 
ции нельзя отбрасывать при анализе конкретной ситуации, не п 
рив их наличие или отсутствие. | деды 
Обсудим подробнее указанные основные факторы генной динамики 
подразделенных популяций. Как следует из выводов $ 2 этой главы 
значимость каждого из них определяется не абсолютными их значе- 
ниями, а их соотношениями. Обозначим символом М значимость в 
популяции фактора дрейфа, М — значимость миграции, а 5 — отбора 
За — значительный дифференцирующий (локальный) отбор, $ Е 
гомогенный (глобальный) отбор. Возможные динамические типы 
2-22 популяций определяются тем, какие из этих пара- 
на уносан Напомним, что несущественным мы считаем 
ола о. приведенным в $ 2 неравенствам. Ска- 
дан А нов по сравнению с миграцией можно пренебречь, 
ет (например, 4№,т > 10 + 20); при сопоставимых ве- 
личинах ти 1/(4№,) существенны оба фактора. 
алына арыба е основных динамических типов генетической 
АМА разделенных популяций, включающих один или больше 
ук ных факторов. Они следующим образом распределяются по 
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або- 
типу генной дифференциации популяций (за --обозначение сл 


дифференцируюцего, но не гомогенного отбора): 


Умереиная Гомогенная 
рони бааа структура 
54 54 За 
М М5; м 
№4 № М5, 
Кбам м 
ММ, 


ас- 
Из приведенной схемы с несомненностью следует, н аА _ 
полагая никакими данными, кроме данных о степени 2 - 
ренциации популяции (или всего вида в целом}, пи 592. 
ифференциац 
ах, обеспечивающих такую д А 
5 ны Например, если генетическая структура Бар жазда 
НЕЙ (а выборки достаточно репрезентативно Бақаны кара 
все группировки изучаемой популяции), то нам следуе ЕЕ қаданы 
три основные модели (гипотезы): 1) основной фактор ое 
Нека 2) основной фактор - миграция генов; 3) существен 
: играция. 

а — гомогенный отбор и м клет 
ани динамических факторов популяционной о 
бор одного из указанных 12 динамических типов Ди Бри 

а методом исключения, т.е. путем передова Сати 
епс холзшйх моделей структуры. Приведем поясняющий У 52. 
А имер. Пусть популяция состоит из нескольких қық т бін 
На группировок численностью по 105 особей: Езра е 
содержит 100 субгруппировок по 103 особей. А ов онн 
ровка, в свою очередь, состоит из 10 демов с елан ооа 

сь бы, во всех демах дол 
тью по 100 особей. Казало ; Донат 
Па процессы генного дрейфа, поскольку численность их А 5. С 
Бин зка этому, Однако такое заключение Е каа 
корне неверным, если мы не учтем структуру тен о И вер 
ью всег е = 

играции интенсивност ; 
демами возможны м та 
о больше 1. Значит, внут ! 

. ‚ 0.05 = 20, что значительн беру? 
Прон миграция является существенным фактором, а — а 
несуществен. Вследствие этого соора ик 

ость к — 10°. Я 
в, эффективная численн 4 

2... остигает хотя бы 1%, то вну 

между субгруппировками д | 

а рые =4. 103 . 0,01 = 40 >> 1. Следовательно, и рау 

три г 2 7 

ны группировки дрейф незначимо влияет на аии за 
ак почему ее эффективная численность ВИ АЕ 
ч 
еперь возможность слу 
му — 105. Рассматривая т 
а дифференциации группировок и т 4 
что дрейф несущ Я 
ии, мы приходим к выводу, беріш 
е] Это аст что коэффициента миграции между поне н. аи 
49? равного 0,01% (т = 0,0001!), достаточно, чтобы Ние Е 
к р , 
ействие случайного генного дрейфа. Таким пре е ны 
Сой иерархически организованной популяции 
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миграции в 5, 1 и 0,01% (последовательно от нижних уровней 
иерархии до верхних) вполне достаточно, чтобы не рассматривать 
дрейф как значимый фактор дифференциации. 

Следует отметить, что, безусловно, необходимо иметь эксперимен- 

тальные данные о численности группировок и коэффициентах миг- 
рации, чтобы исключить тот или иной фактор, допустим дрейф. Прав- 
да, для рассматриваемого условного примера на этом исследование 
не закончится, поскольку имеется еще один фактор — отбор. Дейст- 
вительно, пусть генная дифференциация изучаемых группировок 
значима, но невелика (например, С = 5%, что при выбранных 
значениях С” и С, соответствует умеренной структуре). Так как 
дрейф как фактор динамики мы исключили, возможны два динами- 
ческих типа популяции (см. схему): либо тип $/ — слабый дифферен- 
цирующий отбор и несущественная миграция (если т = 0,0001, то 
миграция действительно никак не повлияет на селективную диффе- 
ренциацию группировок, даже если коэффициенты отбора малы — 
порядка 107 или 107), либо тип М5, — значительный дифференци- 
рующий отбор и значительные миграции. Как выбрать между двумя 
моделями (типами популяционной структуры)? Один из путей — 
сравнить степень генной дифференциации, оценив частоты генов в 
выборках особей до и после миграций (например, на ранних и более 
поздних стадиях развития). Если до миграций величина С будет выше, 
чем после миграций, то тип структуры — М5, если нет, то — 5, Для 
надежности выводов желательно провести дополнительные экспери- 
менты по оценке интенсивности отбора и миграций. 

Определением динамического типа популяционной структуры ис- 
следование, конечно, не заканчивается. Должны быть выявлены эко- 
логические факторы, влияющие на параметры системы. Например, 
если установленный тип структуры — М5, то в экспериментах и 
полевых исследованиях следует выяснить, как и насколько влияют на 
интенсивность и характер отбора и миграций температура, влаж- 
ность, обеспеченность субстратом, экстремальные факторы, антропо- 
генные воздействия и др., чтобы не только всесторонне разработать 
вопрос о популяционной структуре данного вида, но и перейти к 
решению практически важных задач. Рассмотрим следующий пример. 

Известно, что проходные лососи обладают высокоразвитым " инс- 
тинктом родного дома" (хомингом): через несколько лет рыба возвра- 
щается из мест нагула в места ската (точнее, места смолтификации). 
Поэтому представление об их популяционной структуре основа- 
но на концепции "локальных стад". Локальное стадо — это группи- 
ровка рыб, нерестящихся в определенном районе, ее считают 
независимой и самовоспроизводящейся единицей [Бирман, 1985]. 
Степень хоминга у лососевых рыб определяется их способностью к 
навигации в море и обонятельным импринтингом в прибрежье и зави- 
сит от множества факторов: выраженности навигационных ориенти- 
ров; гидрологических условий на разных этапах нерестовой мигра- 
ции; численности группировок; антропогенных воздействий (рыбо- 

разводной процесс, загрязнение среды) и др. Поэтому у разных лосо- 
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сей хоминг выражен в разной степени. У одного из видов тихоокеан- 
ских лососей — горбуши О. гогризсра хоминг ослаблен в максималь- 
ной степени. Зто послужило основанием для критического пере- 
смотра концепции "локальных стад" горбуши ІГлубоковский, Живо- 
товский, 1986], согласно которой генная миграция является сущест- 
венной для данного вида. Кроме того, согласно концепции, границы 
и количество локальных стад азиатской горбуши, нерестящихся в ос- 
новных регионах воспроизводства (Западная Камчатка, Восточная 
Камчатка, материковое побережье Охотского моря, Южные Курилы, 
Восточный Сахалин, Западный Сахалин, Амур, Приморье), не кон- 
стантны: они подвержены периодическим изменениям, которые обус- 
ловлены регулярными, иногда значительными флуктуациями мигра- 
ционных потоков между стадами. Иными словами, по этой концепции 
между группировками горбуши есть генные миграции, но они не пос- 
тоянны: в один год может происходить обмен между одними стада- 
ми, в другой — между другими. С теоретических позиций динамика 
генной структуры при этом должна описываться нестационарнйми 
динамическими уравнениями. Генная дифференциация горбуши неве- 
лика (С=`4% для вида в целом), возможные динамические типы ее — 
М$а и $4. ы 

Сколь существен здесь выбор между моделью локальных стад (тип 
5) и моделью флуктуирующих стад (тип М5), можно понять по 
практическим следствиям из этих гипотез. Если следовать концепции 
"локальных стад", то динамику отдельного стада можно прогнози- 
ровать независимо от других стад. По концепции "флуктуирующих 
стад" прогнозирование популяционной динамики и разработка 
практических рекомендаций по вылову и воспроизводству запасов 
азиатской горбуши должны носить глобальный характер, т.е. прово- 
диться одновременно по всему Дальнему Востоку с учетом воз- 
можных межрегиональных обменов. Это означает, в свою очередь, 
необходимость создания системы слежения за нерестовыми мигра- 
циями горбуши и учета влияюцих на них океанологических и других 
факторов. 

Таким образом, проблема выявления популяционной структуры 
вида имеет не только теоретический интерес, но и непосредственное 
практическое значение. Но как следует из материала этой главы, нуж- 
но провести обьемное многоплановое популяционно-биологическое 
исследование, прежде чем вынести окончательное суждение о том, 
что можно выделить в качестве популяции, понимаемой как единица 
эволь.:ии, элемент биоценоза, объект хозяйственной деятельности 
человека. Статистические методъ анализа и динамические модели 
популяционных процессов — необходимый и очень важный инстру- 
мент такого исследования. 
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Глава 4 


ОЦЕНКА КОЛИЧЕСТВЕННОИ ИЗМЕНЧИВОСТИ 


Необходимость изучения количественных признаков объясняется 
тем, что, во-первых, большинство важных с разных точек зрения осо- 
бенностей морфологии и физиологии растений и животных количе- 
ственные; во-вторых, они являются биологическими "индикаторами" 
среды; в-третьих, за ними может стоять большое число генов, предс- 
тавляющих иную часть генома, чем локусы, выявленные методами 
биохимической и молекулярной генетики; в-четвертых, именно коли- 
чественные признаки связаны с адаптивными свойствами организма 

Методы анализа количественных признаков в популяциях весьма 
разнообразны, и детальное изложение их требует отдельной моно- 
графии. Тем более это невозможно в рамках одной главы, но в то же 
время в этой книге нельзя было совсем не касаться количественной 
изменчивости. Из широкого спектра важных тем мы решили в основ- 
ном затронуть вопросы устойчивости оценок параметров. Это очень 
важная проблема, ибо не-нормальность распределений количествен- 
ных признаков и наличие отклоняющихся наблюдений — обычное яв- 
ление в популяционных исследованиях. Вместе с тем при биометри- 
ческом анализе полевого и экспериментального материала часто ис- 
пользуют стандартные методы, основанные на гипотезе нормаль- 
ности распределения количественных признаков. Именно поэтому мы 
здесь акцентируем внимание на проблеме устойчивости и робастных 
процедурах оценивания и проверки гипотез при анализе количест- 
венных признаков. Один из аспектов стабильности оценок связан с 
проблемой анализа комплекса признаков. Поэтому мы вкратце кос- 

немся и методов вычисления различных популяционных параметров 
методами многомерной статистики. 


$ 1. ЭЛЕМЕНТЫ АНАЛИЗА 
КОЛИЧЕСТВЕННОЙ ИЗМЕНЧИВОСТИ 


В этом параграфе обсуждается проблема не-нормальности распре- 
деления признаков и даны элементарные биометрические методы. 


Нормальность и оценки, осповашые на моментах 


Не-нормальность распределения признаков. Анализ коли- 
чественной изменчивости в популяционных исследованиях часто 
ограничивается "нормальной" аппроксимацией, т.е. предположением 
что данный признак распределен по нормальному, гауссовому зако- 
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Число наблюдения? 


100 200 300 400 5040 600 700 800 
Масса, мг 
Рис. 36. Не-нормальное распределение веса бобов, вызванное смешением "нормальных", 


но различающихся линий 
В одной из основных линий среднее значение -350 мг, в другой — -500 мг 


ну. Зачастую это оправдано, ибо Для многих количественных приз- 
наков их распределение действительно близко к нормальному. Но не- 
редко распределения признаков далеко не такие. Еще в опытах В.Ио- 
ганнсена по выделению "чистых" линий было отмечено явное откло- 
нение — двувершинность (рис. 36). Автор показал, что такое распре- 
деление является следствием генетической неоднородности исход- 
ного материала, а именно смеси нескольких "чистых" линий, в каждой 
из которых, однако, распределение признака нормально. 

Генетическая неоднородность — правило для популяций, а обус- 
ловленная ею не-нормальность распределения признака — реальный 
факт. Поэтому в популяционных исследованиях можно говорить 
лишь о меньшем или большем отклонении от нормальности. Более то- 
го, отклонение распределений признака от нормального, гауссова за- 
кона далеко не всегда можно объяснить, как это нередко делают, 
"засорением" или механическим "смешением" выборок. Напротив, оно 
может быть глубоко связано с природой объекта. На рис. 37 пред- 
ставлено распределение признака “высота растения в возрасте 0,5 
года" у сеянцев сосны обыкновенной Ріпиѕ ѕуіуеѕігіѕ и распределение 
того же признака у оставшихся, не погибших через 1,5 года сеянцев. 
Таким образом, первое распределение характеризует все измеренные 
в 6-месячном возрасте растения. Второе распределение отличается 
от первого тем, что из него "выброшены" особи, которые в будущем 
(через 1,5 года) погибнут. Мы видим резкую асимметрию первого 
распределения — длинный "хвост" влево и гораздо большую "нор- 
мальность" второго распределения. Генетический анализ показывает, 
что левый "хвост распределения, образованный сеянцами с замед- 
ленными темпами роста, представлен в основном выщепляющимися 
неадаптивными генотипами, т.е. имеющими низкую приспособлен- 
ность [Животовский, 1984]. Эти особи со временем частично исчезают 
из популяции, которая по этой причине все больше "нормализуется". 
Но никак нельзя считать, что эти особи — нечто чуждое и что они 
"засоряют" популяцию. Нет, эти растения — органическая часть дан- 
ной группировки, и их учет просто необходим (в частности, оказа- 
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Численность 


18 19 25 51 97 43 94 99 
Высота, мм 
Рис. 37. Асимметрия распределения признака" 
. 37. ка "высот. М 
е ыны а сеянцев в возрасте 6 мес" у сосны 


Штриховая линия -- распределение всех сеянцев, асимметрия значительна 
сплошная линия -- распределение тех сеянцев, которые не погибли к возрасту 18 мес 
асимметрия значительно меньше | 


лось, что доля таких генотипов у сосны может быть мерой реакции 
популяции на условия среды обитания |Духарев, Животовский, 1985)). 
Наиболее неприятным в нарушениях нормальности распределений 
признаков является то, что направление и степень нарушения могут 
варьировать не только от признака к признаку, но и от одной груп- 
пировки к другой, даже для одного и того же признака. Например 

семена сосны обыкновенной с редкими аллозимными вариантами от- 
личаются по распределению веса.от нормальных семян (рис. 38) [Ал- 
тухови др., 1983]. 

В случае не-нормальности распределений признаков сразу же 
возникает вопрос, а нельзя ли добиться нормальности, преобразовав 
признаки. Известны ситуации, когда преобразование (например, лога- 
рифмическое) помогает нормализовать исходное распределение 
признака. Однако такая "нормализация" может быть эффективной 
лишь в том случае, когда отклонения от нормальности однотипны 
для всех сравниваемых выборок. К сожалению, такое бывает не часто. 
В табл. 19—20 представлены данные по проверке нормальности рас- 
пределений длины и веса личинок горбуши и ряда метрических приз- 
наков крыла у дрозофилы (проверка проведена Н.Е. Саввушкиной). Де- 
вять выборок личинок горбуши брались последовательно в течение 
месяца с интервалом в несколько дней (с 30 мая по 30 июля 1983 г. на 
Курильском рыборазводном заводе, о-в Итуруп) из одномоментно 
заложенных семей в экспериментах по индивидуальному скрещи- 
ванию. Эти выборки отражают изменения в распределениях призна- 
ков, связанных с различиями в темпах роста личинок. Что касается 
дрозофилы, то были взяты мухи из 5-го и 10-го поколений стабили- 
зирующего отбора по признакам крыла (описание эксперимента см.: 
[Имашева и др., 19891). Эти две выборки отражают изменение распреде- 


лений признаков в ходе отбора. 
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Нормальные 


Рис. 38. Распределение веса семян нормальных и “мутантных" генотипов 


Проверка этих распределений показала, что отклонение от нор- 
мальности — обычное дело, регистрируемое даже консервативным 
критерием х2, не говоря уже о более мощном критерии Колиогоро 
В таблицах указан тип кривых распределений Пирсона, которым о 
лее всего соответствуют распределения признаков (классификацию 
типов |-УП кривых Пирсона см.: |Большев, Смирнов, 1983]. 

Как видно из приведенных таблиц, от выборки к выборке могут ме- 
няться не только параметры распределения, но и сам тип распре- 
деления. Так, например, вес личинок горбуши в основном распре- 
делен по І типу (бета-распределение), но в выборке № 3 этот признак 
имел ГУ тип распределения, а в выборке № 2 он был нор лыла. 
распределенным. Длина личинки меняла тип распределения в отл я 
чие от веса хаотично, а въборка М 4 вообще не соответствовала н 


Таблица 19 


Типы кривых Пирсона, соответствующие распределениям размера и веса 
горбуши Опсотупсвиз вогбиѕсћа 


личинок 


------------------ 


Номер выборки 
Признак 


ЕНЕЗЕШЕШЕЗЕНЕЗЕНЕ 
ІУ І І І І І І 


1 ж 


па ІУ Ту У - УІ І УП ТУ І 


Длина 
Условные обозначения: * — нормальное распределение; -- — тип распре- 
деления ие соответствует ни одной из кривых системы Пирсона. 


Таблица 20 | 
Типы кривых Пирсона, соответствующие распределениям признаков крыл 
у дрозофилы Р. тейаповаз!сг 


Номер выборки 
Поколение 
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одному из типов распределения в системе Пирсона. Что касается 
признаков крыла дрозофилы, то мы видим любопытную вещь: за время 
с 5-го по 10-е поколение отбора многие признаки изменили тип рас- 
пределения. Следовательно, в рассмотренных случаях невозможно 
найти преобразование, которое одновременно нормализовало бы 
распределения даже одного и того же признака в разных выборках. И 
таких случаев в практике популяционных исследований много. 

Из всего этого обсуждения следует, что нахождение нормали- 
зующих преобразований признака — это не основной прием на- 
дежного анализа количественной изменчивости. Конечно, сказанное 
не означает, что не надо пользоваться подобными подходами. Напро- 
тив, следует считать целесообразным нахождение такого преобра- 
зования признака, которое если даже и не приводит к нормальности 
распределений в разных выборках, но в целом обеспечивает лучшую 
их нормализацию по сравнению с той, что была у исходного, непре- 
образованного признака. Например, если распределение признака во 
всех ситуациях имеет значительную положительную асимметрию 
(вытянутый вправо "хвост"), пусть и различающуюся по выраженности 
в разных выборках, то логарифмическое или подобное ему преобра- 
зование может во всех этих ситуациях улучшить распределения, 
приблизив их (хотя и по-разному в разных выборках) к нормальному. 
В то же время отклонения от нормальности могут сохраниться в 
некоторых выборках и для преобразованного признака, не говоря 
уже о тех ситуациях, когда такого "среднеулучшающего" преобра- 
зования не нашлось. Поэтому проблема устойчивости (робастности) в 
теории количественных признаков является на сегодня основной. Но 
прежде чем перейти к ее обсуждению, рассмотрим элементарные 
методы оценивания и сравнений, основанные на нормальном распре- 
делении признака, которые можно применять в тех случаях, когда 
признак распределен приблизительно нормально или когда приме- 
нено нормализующее преобразование. 

Подходы к оцениванию параметров. Можно указать три под- 
хода к оценке популяционных параметров и проверке гипотез для 
количественных признаков. Пусть имеется выборка из М особей, вели- 
чины изучаемого признака которых суть х], х2,..., Ху. 

Первый подход заключается в непосредственном использовании 
для дальнейшего анализа этих исходных данных на основе оценки 


2-3 
так называемых моментов: Ух, Х.х;, Ў.х; и т.д. 


Они позволяют вычислять такие хорошо известные параметры, как 
среднее значение, дисперсия, коэффициенты асимметрии и эксцесса, 
коэффициенты корреляции и регрессии (последние основаны на сме- 
шанных моментах распределений признаков Уху; ) и др. Однако ос- 
новные теоретические результаты здесь были получены исходя из 
предположения о нормальности распределений признаков. Кроме 
того, оценки моментов крайне чувствительны к "выбросам", т.е. к зна- 
чительному отклонению даже небольшого числа наблюдений. И чем 
выше степень момента (т.е. показателя при х;), тем нестабильнее его 
оценка. 
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Второй подход направлен на то, чтобы сделать методы анализа 
более робастными к различным отклонениям исходных данных. Он 
основан не на моментах исходных значений признака, а на ранговых 
и порядковых статистиках (т.е. на определенных, ранжированных по 
величине значениях признака или их комбинациях), а также на 
отбрасывании части данных (так называемое цензурирование). Суть 
их — сделать оценки характеристик устойчивыми путем отказа от 
предположений о нормальности и уменьшения "веса" тех наблюде- 
ний, которые приводят к неустойчивости. 

Третий возможный подход — это "дискретизация" количественного 
признака путем выделения нескольких градаций и последующего 
применения методов анализа качественных признаков (здесь "мор- 
фами" служат градации количественного признака; см. ГЛ. 1и 2). 

Ни один из указанных подходов нельзя абсолютно предпочесть 
другому. Если распределение признака нормальное, то максимальной 
мощностью и точностью обладают методы, основанные на моментах; 
метод "дискретизации" при этом минимален по мощности. Если же 
распределение признака далеко от нормального и есть "выбросы", то 
более точными и более мощными становятся методы, основанные на 
порядковых и ранговых статистиках. Если же распределение призна- 
ка сильно меняется от выборки к выборке, то "дискретизация" и пос- 
ледуюцее использование методов анализа полиморфных признаков 
оказываются наилучшими (например, медианные и подобные им тес- 
ты, по сути дела, основаны на "дискретизации" количественной из- 
менчивости). В следующих пунктах этого параграфа мы кратко кос- 
немся стандартных методов оценки, а в 55 2 и З перейдем к обсужде- 
нию робастных статистических процедур. 

Среднее значение, стандартное отклонение и коэффи- 
циент вариации. Базовыми понятиями для количественного приз- 
нака являются его средняя выраженность и степень его варьиро- 
вания. Конкретные параметры, оценивающие их, различны. Здесь мы 
рассмотрим те из них, которые основаны на моментах. 

Наиболее распространенными параметрами количественных приз- 
наков являются: среднее арифметическое, или, как часто говорят, 
среднее значение (характеристика средней выраженности п ризнака) и 
стандартное отклонение, часто называемое среднеквадратичным 
отклонением (характеристика варьирования признака). Пусть Х1, х2,..., 
ху — величины количественного признака у каждой из М иссле- 
дованных особей в выборке. Оценки указанных параметров, как хоро- 
шо известно, следующие: 


х=(ж+ ло +...+жм)/М, 5= (а-х)+--(ам х) м1), 


или (с использованием символа суммирования) 


Величина 52 — это оценка дисперсии признака. 
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Нередко в качестве меры изменчивости вариабельности количест- 
венного признака берут так называемый коэффициент вариации 


Съ = 5х, или(вЖ) С, = 100. 


Коэффициент вариации предпочтительнее стандартного откло- 
нения как мера вариабельности признака в тех случаях, когда наблю- 
дается эффект шкалы — увеличение стандартного отклонения с рос- 
том среднего значения. 

Коснемся вычислительной стороны этих оценок. Для упрощения 
вычислений оценку стандартного отклонения обычно представляют 
в алгебраически эквивалентной, но более удобной форме: 


1 2; -2 
жанын аа 
М1 е. і-Мх |Это общеизвестно. Менее известны методы 


компактизации вычислений. Допустим, что имеющуюся информацию 
можно обработать только по частям. Общий объем М при этом раз- 
бивается на & частей объемом М), №,..., №. Пусть ху, Х,.., Х ИУ, 
52... 5к — средние значения и стандартные отклонения, оцененные 
отдельно в каждой из этих частей. Как оценить сводное среднее зна- 


чение и сводное стандартное отклонение 5? Формулы для них до- 
статочно просты: 


Б ера 12 


1 к 
ПОКРИЯТ, ал сене. 2 ня“ 
мм» = м У(м-1)5? + Ум(а-х) 
і-1 із 
Мерой статистической точности оценок среднего значения и ди- 
сперсии являются стандартные ошибки: 


зз = 5/УМ, 52 - | - > 


М-1 
Ошибка стандартного отклонения 5; “ СЫЙ -1), а коэффициента 


вариации 5с = т +207. 


Доверительные интервалы для неизвестных генеральных значений 
среднего р, дисперсии а? и коэффициента вариации Е определяются 
соответственно по формулам: 


Хз (От <0<х54-ар(У) тұ, 


у52 2 №52 
7 <<, 
Хүр (У) Ха/2 (У) 
Б <5< С ; 
г. ЕС Т 1—26“ 
Ш-о/2 5, о В 


где у = №1 — число степеней свободы. 
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Коэффициенты ковариациии корреляции. Одним из показа- 
телей сопряженной изменчивости двух количественных признаков х 
и у является так называемая ковариация. Ее оценка: 

М Е 
Соу(х,у) = 0-58 у(х - х)У, - У), 
Миа 
где М — объем выборки; х;и у; — значения обоих сопряженных 
признаков; Хиу — их средние значения. Эту формулу можно пред- 
ставить в другом, более удобном для вычислений виде: 


Ковариация (т.е. совместная вариабельность), как и дисперсия, — 
величина размерная. Поэтому в качестве показателя взаимосвязи 


обычно берут нормированную (безразмерн ую) вели чину Г = Соу/(55 


где 5х и 5, — оценки стандартных отклонений исследуемых приз- 
наков. Это хорошо известный коэффициент линейной корреляции, 
который можно переписать в привычной форме: 


Хху;- Мху 
(х2 -м? (ро? - му?) 


Коэффициент корреляции удобен как мера взаимосвязи признаков, 
поскольку теоретически он ограничен пределами варьирования: от 
-1 до +1. Тестирование гипотезы о равенстве нулю генерального зна- 
чения коэффициента корреляции р(Но: р = 0) в "нормальной теории" 
осуществляется 1-критерием Стьюдента: 


[= УМ-27/\!-,? 


су-п-2 степенями свободы. Например, если г = 0,40 иМ = 20, то 
= 1,85. Следовательно, нуль-гипотеза против двусторонней гипоте- 
зы НА : р #0 принимается на уровне значимости р < 0,05. Однако если 
бы была выдвинута односторонняя альтернативная гипотеза НА:р > 
0, то уровень значимости былр < 0,05 и можно было предварительно 


принять НА. 
Если коэффициент корреляции отличен от нуля, то статистическая 


2 
ошибка его вычисляется по формуле 5, = (1 -г Ум = 


Как говорилось в $3 гл. 1, в тех случаях, когда ошибка зависит от 
оцениваемого параметра, лучше переходить к преобразованным ве- 
личинам, а именно следует применить г-преобразование: 

1. 1+7 


= — п А 
і 2 1-7 


ошибка которого 5; = АДА - 3). 
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На основе згой ошибки можно построить достаточно точно дове- 
рительный интервал. Например, если” = 0,40 иМ = 50, тог = 0,42, 
5, = 0,146. Следовательно, 95%-ные доверительные границы для пре- 
образованной величины будут (21,22), где =2 — 1,96 т,; 22 = 
2+ 1.96 т,, те. 2, = 0,13, 25 = 0,71. Доверительные границы для р 
можно определить по обратному преобразованию — от гкг: 


Е) 


Получим: 


п = (2013 –1)(е293 +1) = 0,13; љ= (207 _1)/(е20.71 +1) = 0,61. 


Следовательно, с хорошей степенью приближения двусторонние 


95%-ные доверительные границы для коэффициента корреляции 
0,23 <р < 0,61. 


Стандартные статистические гипотезы 


Критерии сравнения. Сравнение двух выборочных оценок сред- 
них значений, полученных для независимых выборок, проводится на 
основе известного критерия Стьюдента 


іа = (а а у за, + СА 


число степеней свободы у определяется по формуле 


2 2 

2 2 2 55 5х2 
У= | +55 Белое 
М-1 №-1 


с округлением до ближайшего целого числа. Различие между сред- 
ними считается значимым, если величина і; превышает табличное зна- 
чение 1-распределения при у степенях свободы. 


2 2 
Две выборочные оценки дисперсии 5 и 5,, полученные для двух 


независимых выборок объемов №; и №, сравниваются известным кри- 


2222 
терием Фишера Е = $ / 52 со степенями свободы числителя и знамена- 
телясоответственноу! = № – 1и у = № - 1. 


Для сравнения коэффициентов вариации С; и Сз, т олученных в 
выборках объемом М! и №2, обычно рекомендуют стандартный 
критерий 


и= (С еа +52, 


где 51 = 1,2) — ошибки коэффициента вариации; причем часто берут 
упрощенную форму: 5; = см; предполагая, что и распределен по 


стандартному нормальному закону. В соответствии со сказанным в $3 
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гл. і мы бы рекомендовали вначале преобразовать коэффициент 
вариации, взяв вместо него логарифм:С = ШС. 
Его дисперсия: 


1 о Е ) 
/ ла есеге ша АС Н 
Ух 21-01926 +2 


где Аи Е — коэффициенты асимметрии и эксцесса (см. ниже). При 
умеренных отклонениях от нормальности асимметрией и эксцессом 
можно пренебречь, а при относительно небольших коэффициентах 
вариации (не более 20—30%) можно пренебречь и членом 2С? (тогда 
Ус = 1(2№)). Сравнивают преобразованные коэффициенты вариации по 


той же формуле 
и= (С -6,)/ М ку; е 
где С, = мС;С = 1С; ти (ес а - (922 


На основе 2-преобразования можно сравнить выборочные оценки 
козффициентов корреляции. Пусть”, иго — независимые оценки 
корреляции в двух въборках объемом №; и №; 21 и2› — преобразо- 
ванные величины. Тогда для их сравнения можно применить стан- 
дартный критерий для нормально распределенных величин: 


и=(я-22}/ 52 +82 Е 


где 51 и 5; — ошибки преобразованных величин, т.е. 


Можно также сравнить несколько коэффициентов корреляции на 
основе общего правила, данного в $3 гл. 2: 


к 
-ү2 
х? = Ума - 2) , 
ігі 
где 21,22, 2, — преобразованные оценки коэффициента корреляции 
в выборках объемов М,, Мо,..., № 7; = №; -3 — степени свободы; 2 — 


._1 
усредненное значение: 2 = уру, где у = Ху; —суммарное число 


2 
степеней свободы. Величина Х? распределена как Хел (СЕ-І степе- 


нями свободы), если справедлива нуль-гипотеза о равенстве всех 
генеральных коэффициентов корреляции Но: р; = р =...= рь Гипотеза 
Но отвергается и делается вывод о гетерогенности (т.е. различии) 
коэффициентов корреляции, если Х2 превышает табличное значение 
(2-распределения. При этом тест значимости 2 (т.е. отличия гене- 
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рального значения р от нуля) равен у22 и распределен как х с ОДНОЙ 
степенью свободы. 

Априорная оценка объема выборки. Пусть требуется выявить 
различия между средними значениями признака в двух группировках 
(ш, и рг) на уровне значимости а с надежностью (мощностью) Т — В. 
Будем считать, что дисперсия признака одинакова в обеих 
группировках и равна 02. Тогда минимальный объем каждой выборки 
М определяется по формуле 


2 с? 
Медиа + в) 5. 
(ш - в) 

Пусть, например, стоит задача выявления таких группировок, 
различия между которыми в четверть стандартного отклонения (т.е. 
іш, — р/с = 0,25) тестировались бы на уровне значимости о = 0,05. 
Каков должен быть объем каждой выборки, чтобы такие различия 
выявлялись с надежностью не менее 1 - В = 0,8? По таблице нор- 
мального распределения находим: и, = 1,96; изв = 0,84. Отсюда 
М = 2(1,96 + 0,84)2 х 1/0,25 = 125,4. Следовательно, объем каждой 
выборки должен быть 120—130 особей. 

Задача определения объема выборки, нужного для оценки с задан- 
ной точностью параметров количественной изменчивости, встает при 
оценке не только средних значений, но и изменчивости признака. Од- 
нако известное решение такой задачи справедливо лишь для нормаль- 
но распределенных признаков и, значит, имеет ограниченное значе- 
ние. Поэтому сейчас мы рассмотрим такую задачу в форме, не зави- 
сящей от гипотезы нормальности. 

В гл. 2 ставилась задача определения такого объема выборки, при 
котором в ней есть все фенотипы или аллели, кроме самих редких. 
Сформулируем аналогичную задачу для непрерывно варьирующих 
признаков. Для количественной изменчивости редкие фенотипы — 
это, как правило, особи с крайними значениями признака (с малыми 
или, напротив, большими). Следовательно, выявить всю изменчивость 
— это найти ее пределы. Пусть хи (М) и Хах МУ) — минимальное и 
максимальное значения признака, полученные в выборке объема №. 
Каков объем выборки М, в пределах изменчивости которой (Ха Хтах) 
с вероятностью не меньшей чем Р содержится не менее О-й части 
изменчивости группировки. 

Следующая таблица (табл. 21) {Ѕасһѕ, 1982] дает значения М для 
заданных Ри О. Отметим, что здесь не предполагается нормальность 
признака; распределение его может быть любым. Например, если мы 
хотим (с уверенностью Р = 90%) определить интервал значения, в 
пределах которого содержится не менее чем 99% всей изменчивости 
генеральной совокупности, мы должны получить выборку объема не 
меньше чем М = 388 и в качестве границ интервала взять минимальное 
и максимальное значения признака. 

Асимметрия и эксцесс. Если распределение признака отклоня- 
ется от нормального закона, то среднего значения и дисперсии уже 
явно недостаточно для описания распределений признака. В био- 
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Таблица 2} 
Объем выборки, необходимый для выявления (с вероятностью Р) интервала в 
котором сосредоточено не менее чем О изменчивости количественного признака 


Доля всех фенотипических вариантов группировки 0 


50 т 90 В 95 | 99 | 99,9 | 99,99 


Вероятность Р 


0,50 3 17 34 168 1679 16 783 
0,80 5 29 59 299 2994 29 943 
0,90 7 38 77 388 3889 38 896 
0,55 8 46 93 473 4742 47 437 
0,99 11 64 130 662 6636 66 381 
0,999 14 89 181 920 9230 92 330 


метрии часто используются еще два параметра, описывающих харак- 
тер отклонения от нормальности. Первый из них — это отклонение 
"по горизонтали", асимметрия (рис. 39, а), второй — отклонение по 
вертикали", эксцесс (рис. 39, б). В “нормальной теории" в качестве их 
оценок берут коэффициентасимметрии А и коэффициент зксцесса Е: 


іі 


(м-1)%4 


где М -- число наблюдений; Х1,...Хм — значения признака у исследо- 
ванных особей; 5 — оценка стандартного отклонения. Для расчетов 
удобно использовать следующую форму записи: 


з 


2 М 2 25 
Аз БІНДЕ 
ан 5 {=1 


2 М - 25 4 
= ТЕТЕ Ух? - 4АМхЗА-6(М- в? - пх 


Таким образом, для оценки основных параметров распределения 


4 


2 3 
следует вычислить вначале четыре суммы (момента): >х,Ух;, Хх; и 


улі, 


а затем последовательно определитьх 5, А и Е по указанным 
формулам. Статистические ошибки для Аи Ев общем случае очень 
сложны и зависят от моментов вплоть до 8-го порядка, т.е. от членов 
ТӨЛЕ х)“, где =2,3,4,..., 8 [Крамер, 1975]. Если считать, что 
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Рис. 39. Асимметрия (а) и эксцесс (б) распределения количественного признака 
Штриховой линией обозначено нормальное распределение, сплошной — отклоне- 
ния от него 


распределение не очень отклоняется от нормального, то 
тА = ү6№, тұ = 24)6/№. 

Критические значения А и Е приведены в табл. 22 (5асһ, 1982]. При 
превышении их отвергается гипотеза нормальности (для коэффици- 
ента эксцесса границы доверительного интервала несимметричны, и 
поэтому они обе указаны в таблице). 

Отклонение от нормальности приводит к тому, что дисперсии оце- 
нок и, значит, их статистические ошибки начинают зависеть от момен- 


Таблица 22 ) 
Критические значения коэффициентов асимметрии А и эксцесса Е в выборках 
из нормальной генеральной совокупности для уровней значимости о = 0,05 и 0,01 


Коэффициент асимметрин А Коэффициент эксцесса Е 
е | ана | аа | 


Объем въборки 
х = 0,01 


10 0,95 1,40 - 1,44; 0,95 - 1,61;2,00 
15 0,86 1,28 - 1,28; 1,13 - 1,48; 2,30 
20 0,78 1,15 - 1,18; 1,17 - 1,35; 2,36 
25 0,71 1,07 - 1,09; 1,16 - 1,28; 2,30 
30 0,66 0,99 - 1,02;1,11 - 1,21; 2,21 
35 0,62 0,93 - 0,97; 1,10 — 1,16; 2,13 
40 0,59 0,87 - 0,93; 1,06 - 1,11; 2,04 
45 0,56 0,83 - 0,89; 1,00 - 1,07; 1,94 
50 0,53 0,79 — 0,85; 0,99 - 1,05; 1,88 
70 0,46 0,67 - 0,75; 0,88 - 0,92; 1,61 
100 0,39 0,57 - 0,65; 0,77 - 0,82; 1,39 
150 0,32 0,46 - 0,55; 0,65 -0,71;1,13 
200 0,28 0,40 - 0,49; 0,57 - 0,63; 0,98 
300 0,23 0,33 - 0,41; 0,47 - 0,54; 0,79 
500 0,18 0,26 - 0,33; 0,37 - 0,43; 0,60 
1000 0,13 0,18 - 0,24; 0,26 -0,32; 0,41 
Критерий при- |А| меньше критической вели- Е находится между нижней (от- 


нятия гипотезы чины 
нормальности 


рицательной) и верхней (поло- 
жительной} границами 


А от Пас ее ---- 
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тов старших порядков, в частности от коэффициентов асимметрии и 
эксцесса. Исключение здесь — ошибка среднего значения, она оста- 


ется прежней: 5 = 5/Мм ‚ где 5 — стандартное отклонение признака. 


Другое дело, что при ненормальности или наличии резко отклоняю- 
щихся наблюдений оценка дисперсии 52 может оказаться сильно сме- 
щенной и, как следствие, будет слишком грубой ошибка 5х. Ошибки 
оценок дисперсии, стандартного отклонения и коэффициента вариа- 
ции имеют вид: 


52 = 52 [0+ Е)/М, 


55 (2+ Е)(4м), 
вс -(С/У2М) 1+2С2 + (Е/2)-2АС. 


Здесь Аи Е — коэффициенты асимметрии и эксцесса соответ- 
ственно. 


$2. ПОРЯДКОВЫЕ СТАТИСТИКИ 


Рассмотренные параметры (среднее значение признака, дисперсия 
и др.) обладают хорошими статистическими свойствами лишь в случае 
нормальности распределения признака. При значительном отклоне- 
нии от нормальности эти параметры уже не выполняют возложенных 
на них статистических требований. Особенно это относится к диспер- 
сии, в частности Р-критерий сравнения дисперсий очень чувстви- 
телен к не-нормальности. 

Еше одно плохое свойство среднего значения и стандартного от- 
клонения — это неустойчивость, т.е. чувствительность к наличию 
резких отклонений среди исходных данных. Даже одно значительно 
отклоняющееся значение в сотне наблюдений может сильно сместить 
оценки, особенно для стандартного отклонения, даже если все ос- 
тальные наблюдения распределены по нормальному закону. Кроме 
того, эти оценки неробастны, т.е. их мощность резко падает при из- 
менении типа распределения (понятия устойчивости и робастности 
— это несколько различные понятия [Мостеллер, Тьюки, 1982], но они 
достаточно близки и поэтому далее употребляются как синонимы; см. 
$3 гл. 1). 

В ряде пособий по биометрии рекомендуют т.н. ранговые методы. 
Они имеют то преимущество, что распределения их оценок мало зави- 
сят он вида распределения. Тем не менее и эти методы не защищены 
от "выбросов" — резких отклонений в вариационном ряду. Рис. 40 
демонстрирует это: основная масса наблюдений показывает линей- 
ную зависимость, однако одно резко выделяющееся наблюдение 
смещает уравнение регрессии. При этом коэффициент ранговой 
корреляции, по Спирмену. равен В = 0,67. Если бы этого наблюдения 
не было, то К=1. 

Существуют подходы, основанные на порядковых статистиках, ко- 
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Рис. 40. Влияние отклоняющегося 
наблюдения на линейную регрессию 
Наблюдения обозначены черными 
кружками. Указаны регрессин без 
учета (сплошная линия) и с учетом 
(пунктирная линия) отклоняющегося 
наблюдения (светлый кружок) 


т, 


торые устойчивы к таким выбросам; для них общий коэффициент кор- 
реляции на рис. 40 был бы равен 1. Теория порядковых статистик еще 
далеко не завершена, но методы ее очень важны. Вместе с тем они 
практически не фигурируют в пособиях по биометрии. И ввиду их 
исключительной важности в этом разделе обсуждаются только они. 
Следует отметить, что некоторые из упомянутых ниже приемов 
эвристичны; возможно, уже скоро, с развитием теории, они будут 
улучшены. Однако и в представленной форме они гораздо надежнее 
при количественной оценке количественной изменчивости, если нет 
уверенности в нормальности распределений признаков и "чистоте" 
исходных данных. 

Медиана признака. Пусть хі, х2,..., хм — ряд изМ наблюдений; 
х; — значение рассматриваемого признака у і-й особи. Пусть эти 
наблюдения ранжированы, т.е. выстроены в порядке возрастания 
признака: 


Хі) < Х2) < Хз) <...< Хм-1) <Х(м): 


Номер в скобках означает ранг особи с данным значением признака; 
ранг -- это номер наблюдения в упорядоченном по возрастанию 
ряду. Статистики, основанные на рангах (но не на величинах Хо), 
называются ранговыми. Статистики, основанные на ранжированных 
величинах х(), называются порядковыми. Отвечающие им методы 
называются соответственно ранговыми и порядковыми. 

Устойчивыми параметрами средней выраженности вариабельности 
признака являются медиана Х и так называемое абсолютное меди- 
анное отклонение, которое мы обозначим 5. Прежде чем определить 
эти величины, введем обозначение для медианы: тей {х1,..., хм}. Эта 
величина определяется как середина ранжированного ряда из № 
наблюдений х; Хау» Хоу»... ХМ). 

Остановимся на деталях вычисления медианы тей (Хъ х2,..., Хм}. 
Рассмотрим различные случаи. 

1. Все х; различны. Тогда значения х; можно ранжировать в строго 
возрастающем порядке: Ха)<Х(2)<Х(3)<...<Х(м-1)<Х(м)- При этом 
медианой является середина этого ранжированного ряда, т.е. член 
со средним по номеру числом (если М нечетно). Если же М четное, то 
медиана полагается равной среднему арифметическому двух 
смежных средних по номеру наблюдений. Это записывается 
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следующим образом: 


р 
ЕЗ! если № нечетно, 


тейіхі....,ху) - (5) ка ти 
- 5 2 ) „если Мчетно, 

Например, для ряда из пяти чисел — 4,72; 5,18; 4,89; 5,01; 4,93 (т.е. 
х = 4,72; хә = 5,18; хз = 4,89; ха = 5,01; х; = 4,93) ранжированные зна- 
чения хү; следующие: ха) = 4,72; Хо) = 4,89; ха) = 4,93; ха) = 5,01; хо) = 
= 5,18. Так как М нечетно (оно равно 5), то медианой будет число х(5+1ур, 
т.е. хау. Значит, в данном случае тей {х;,..., Хз} = 4,93. Если к этому 
ряду добавить еще одно наблюдение, скажем х; = 4,79, то число 
наблюдений станет четным, средних по номеру чисел станет два: хз) 
и Хау. Так как в этом случае ха) = 4,89, а хау = 4,93, то 


тейіхі,...,х| = (4,89 + 4,93)/2 = 4,91. 


2. Случай, когда все х; различны, относится к признакам с непре- 
рывным распределением. Если же признак дискретный, скажем, счет- 
ный, то в каждый дискретный класс может попасть по нескольку на- 
блюдений, особенно в тех случаях, когда таких дискретных классов 
мало. Подобные ситуации возможны и для непрерывных распреде- 
лений, но когда изменчивость признака невелика, а измерения ведут- 
ся с грубым округлением. Например, пусть вся изменчивость уклады- 
вается в пределы от 7,7 до 9,8 см, измерения ведутся с точностью до 
0,1 см. При этом признак дискретизуется на классы 7,7; 7,8; 7,9 и т.д. 
Ясно, что в выборке, состоящей из 50—100 особей, некоторые значе- 
ния этого признака обязательно будут повторяться. 

Рассмотрим еще пример. Пусть в ряду из 15 наблюдений есть 4 
класса: 104, 105, 106, 107. Пусть эти 15 наблюдений распределились по 
классам следующим образом: 1, 7, 5, 2, т.е. в классе 104 есть одно 
наблюдение, в классе 105 — семь, в классе 106 — пять, в классе 107 — 
два наблюдения. Так как № = 15, то медианой должно быть восьмое по 
рангу наблюдение — ха). Оно попадает в класс 105 (это медианный 
класс). В этот же класс попадают все наблюдения, начиная с х2) по 
Хау Чему равна медиана? Положить тей = 105 было бы не совсем 
правильно. Действительно, случись такое, что в классе 105 было бы не 
семь наблюдений, а шесть (допустим, что одно наблюдение попало не 
в класс 105, а в класс 107), то тогда медианным классом стало бы 106. 
Таким образом, изменение всего лишь одного наблюдения привело бы 
в этом случае к скачкообразному увеличению медианы. 

Чтобы понять, что надо делать, чтобы исключить такое скачкооб- 
разное изменение, обратимся к среднеарифметической величине. Для 
наших данных имеем: х = 105,53; в случае указанного изменения од- 
ного наблюдениях = 105,87. Мы видим, что среднее значение меня- 
ется незначительно. Обусловлено это тем, что среднее значение 
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линейно зависит от наблюдений; подобное можно использовать для 
вычисления медианы, а именно пусть М — величина медианного 
класса, 4, — различие между классами, №» — число наблюдений в ме- 


дианном классе. Му — суммарное число наблюдений во всех классах, 
предшествующих медианному. Тогда [Ѕасћ, 1982): 


тейіхі....,хм) =М на Мм] 


Для данного здесь примера М = 15, М = 105, 4х = 1, № =1, № = 7; 
отсюда 


тей- 105: 21 


= 0,5) = 105,43. 


Кстати, для указанного случая изменения одного наблюдения будут: 
М = 106, № = 7, № = 5; отсюда 


116421064 22. 05) 105,60. 


Дальше, в частности при оценке доверительного интервала, нам 
потребуется знать некоторые из ранжированных величин. Их тоже 
можно вычислять по аналогичной формуле, а именно за условную 
оценку і-й по номеру ранжированной величины ха) примем 


1-05-19 


ж 


Хр) < К+4, -0,5, 


где К — величина класса, в который попадает і-е по рангу наблюде- 
ние; № — суммарное число наблюдений во всех предшествующих . 
классах; Уж — число наблюдений в классе. Кстати, из этой формулы 
следует данное выше выражение для медианы. 

3. В том случае, когда непрерывный признак дискретизован путем 
разбиения всего интервала изменения на градации, медиана опреде- 
ляется по той же формуле, что и в предыдущем пункте (градация 
интерпретируется как класс наблюдений). При этом М — середина 
градации, % — ширина интервала градации. Формула для оценки 1-го 
по рангу наблюдения аналогична. 

Оценка медианы признака. Перейдем теперь к вычислению вы- 
борсчной оценки медианы Х. Согласно определению: 


Я-тей|х,х2....хм8Ь 


т.е. х — медиана значений признака всех особей выборки. 

Для того чтобы приблизительно представить себе точность оценки 
медианы, можно оценить стандартную ошибку медианы и ее довери- 
тельный интервал (5асһв, 1982]. Итак, пусть выборка объема № ранжи- 
рована, т.е. Ха) Хо)», Хм) — ранжированные в порядке возрастания 
значения признака изученных М особей. Определим: 

м-(М»43М)/2,  м;-(м-43мУ). 
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Тогда стандартная ошибка медианы 


5; = 0.289 д, == Хм, )) 

Конечно, как правило, числа №; и М. не будут целъми В таком 
случае хм) и Хм) следует определить путем линейной интерполя- 
ции по двум соседним значениям х; с целыми і, а именно пусть а = 


[№] — целая часть числа Мо, а Ө — остаток числа №, т.е. М. – [№]. Тог- 
да Хм) вычисляется следующим образом: 


Хю) - (1-9)ха) + хан): 

Пусть, например, М; = 27,18. Тогда а = 27, Ө = 0,18, 
Хм) = 0,82х 21) + 0,18%(28). 

Аналогично вычисляется ху). 


Отметим, что не будет большой погрешности, если взять вместо М, 
и М; ближайшие к ним целые числа. 

Доверительный интервал для генерального значения медианы р 
можно определить стандартным образом: 

5-1, ЕП <Х-1,5;, 
где і -- распределение Стьюдента су = № – 1. Более точно р. опре- 
деляется как 


Ха) 50 <Хм-һы)» 


где ћ = (м- шум - 1/2 ‚и — нормально распределенная величина. На- 


пример, и равно 1,96 и 2,58 соответственно дляР = 0,95 и 0,99. Строго 
говоря, для небольших значений М (№50) следует пользоваться точ- 
ной таблицей [5асһѕ, 1982]. Но уже при №>15—20 нормальное при- 
ближение удовлетворительно; причем хүр ИХ м-н) МОЖНО вычислить 
на основе линейной интерполяции или же (без существенных иска- 
жений) положить й равным ближайшему целому числу. 

Рассмотрим пример. Пусть рост 15 пациентов, см: 151, 176, 177, 172, 
174, 170, 176, 175, 174, 173, 176, 174, 173, 172. Эти данные представим в 
виде таблицы ранжированных величин (выписав и их условные 
оценки): 


Рост 151 170 172 173 174 ‘175 176 177 
Количество 1 1 3 2 3 1 3 1 
Условные оценки 151 170: 1717 172,8 1737 175 1757 177 
(округлены до 1-го 1720 1732 1740 176,0 
десятичного знака) 172,3 174,3 176,3 


Из этой таблицы видно, что 8-е порангу условное значение равно 
173,7. Оно в точности совпадает с оценкой медианы без вычисления 
условных ранжированных оценок всех наблюдений. Медианный класс 
здесь -- 174. Поэтому 


тата (25270,5) тз 
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Вычислим теперь ошибку медианы. Имеем: Мо = 10,85; №; = 4,15. 
Поэтому хим.) = (1- 0,85) хіо) + 0,85 ха) = 0,15 · 174,3 + 0,85 · 175,0 = 
= 174,9; хм = (1 - 0,15)ха) + 0,1545) = 0,85 - 172.0 + 0,15 · 172,3 = 172,0. 
Отсюда 5) = 0,289 (174,9 - 172,0) = 0,84. 

Таким образом, оценка медианы Х + 5; равна: 173,7 + 0,84. 

Найдем доверительный интервал для генеральной медианы |. Во- 
первых, его можно приблизительно оценить на основе ошибки 5,. 
ПустьР = 0,95. Тогда 

5-1, << +155, 
где г, — табличное значение распределения Стьюдента для Р= 0,95. 
Так как у = 15 – 1 = 14, тог, = 2,14. Поэтому приближенно: 171,9 = ц = 
< 175,5. 

Воспользуемся точной формулой. Из таблицы следует, что ха) =, 
ер = ха. 


а 29 Е 
Так как х(4) = 172% (“-9з-2. 05) = 172.0, то 1720 = й < 175. 


Мы видим, что приближенный и точный доверительные интервалы 
почти совпадают; точный интервал несколько несимметричен отно- 
сительно выборочной оценки медианы и уже приближенного. 


Медианные меры изменчивости 


Распространенной мерой изменчивости в теории нормальных рас- 
пределений является дисперсия признака, или стандартное откло- 
нение. Однако, как уже отмечалось, дисперсия крайне чувствительна 
к нарушению нормальности. Поэтому в данном разделе мы обратимся 
к мерам изменчивости количественных признаков, основанным на ме- 
дианных оценках. 

Медианное стандартное отклонение. Нередко в качестве ро- 
бастной меры вариабельности берут медианноеотклонение: 


тей (1, - М - Их = 1). 


Однако удобнее использовать величину, которую назовем медиан- 
ным стандартным отклонением, оценка которого имеет вид 


ў = 1,48 1теа (1х, — Ло ~ Я,..Шхи-х|)}. 


Число 1,481 в оценке медианного отклонения взято для "сопря- 
жения" ее с оценкой дисперсии: для нормального распределения ге- 
неральное значение $? совпадает с генеральным значением 52, т.е. с 
дисперсией 02. 

Прежде чем обсуждать преимущества медианного стандартного 
отклонения как меры вариабельности, вычислим $ для рассмотрен- 
ного примера. Абсолютные значения Іх(;)- ХІ, полученные из приве- 
денных в таблице значений ху; таковы: 22,7; 3,7; 2,0; 1,7; 1,4; 0,9; 0,5; 0; 
0,3; 06; 1,3; 2,0; 2,3; 2,6; 3,3. Медиана этих величин равна 1,7. 
Следовательно: 5 = 1,481. 1,7 = 2,52. 
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Ошибка для 5неизвестна, Пока не разработаны точные методы, со- 
ветуем приближенно оценивать 5;, так же как и ошибку для медианы. 
Для этого надо рассмотреть ряд, составленный из абсолютных зна- 
чений отклонений 


51, 52, 53»... вм. ГДЄ 51 = (ху – Х!; 


52 = Жо -х.... 5м = Ку – й. 


Найдем числа № = (м- 3м)/2,М; = (м+узм)р. 


Тогда: 
5 = 1,481 тей (51, 82» 5м); 


5; = 0,428 (5м) - 5(м1)): 


При нецелых № и №; следует осуществлять описанную линейную 
интерполяцию (или округлить их до целых). Для данного примера 
5; = 0,68; следовательно: 5% 5; = 2,5 + 0,68. 

Вероятно, точная процедура будет давать не сильно различаю- 
щиеся оценки. 

Есть ли смысл вычислять медианные оценки? Прежде чем обсто- 
ятельно обсудить этот вопрос, оценим для данного примера обычные 
параметры: среднее Хи стандартное отклонение 5. Имеем: = 172,3; 
5 = 6,21. 

Мы видим, что среднее х заметно отличается от оценки медианы 
х = 173,7. Несоответствие же обычной (основанной на моментах) и 
медианной оценок изменчивости просто разительно — почти в 2,5 
раза (5/3 = 6,21/2,52), а отношение дисперсий — более чем в 6 раз! 
Проанализировав внимательно данные, мы обращаем внимание на рез- 
ко отклоняющуюся величину признака у первого индивида: хі = 151. 
Она явно "выпадает" их общего ряда. А так как любая сводная харак- 
теристика должна представлять данную массу наблюдений, то всякое 
резкое отклонение искажает оцениваемые параметры всей выборки. 
Что делать в таких случаях? . 

В некоторых руководствах рекомендуют не учитывать при расче-. 
тах резко отклоняющиеся величины. Но критерии для опознания вы- 
деляющихся наблюдений во многом условны и, главное, как правило, 
апеллируют к нормальности распределений признака, что весьма 
ограничивает их применение. Да и отбрасывать такие отклонения не 
всегда обоснованно, ибо их существование может быть биологиче- 
ской сутью явления (см. рис. 36, 37). Но вместе с тем нельзя игно- 
рировать и тот факт, что нередки и артефакты, например просто 
ошибки регистрации. Поэтому следует больше полагаться на такие 
методы анализа и такие параметры и критерии, которые слабо реа- 
гируют на наличие резко отклоняющихся наблюдений и не-нормаль- 
ность распределения. Именно такими и являются медианные оценки. 
Действительно, предположим, что значение хі = 151 — это просто 
описка, а на самом деле рост 171 см. При этом, как легко убедиться, 
медианные оценки остаются прежними: Х = 173,7; $ = 2,52. 


222 


Однако обычные оценки изменяются: (Х = 173,7; $ = 1,99) и становят- 
ся достаточно близкими к медианным оценкам (а средние в данном 
случае просто совпадают). 

Таким образом, в популяционных исследованиях надо шире ис- 
пользовать методы, малозависящие от вида распределения и наличия 
резко выделяющихся наблюдений (если только такие наблюдения не 
интересуют нас специально), будь то медианные или другие подходы. 
Особенно это актуально при анализе изменчивости, ибо, как мы толь- 
ко что видели, одно наблюдение может сильно повлиять на оценку 
дисперсии 52. А ведь сравнение выборок по изменчивости — это один 
из первых шагов популяционного анализа. 

Другие меры изменчивости. Указанное медианное стандартное 
отклонение — не единственная из мер изменчивости, основанная на 


` порядковых статистиках. Рассмотрим подход, связанный с оценкой 


размаха, т.е. разницы между максимальным и минимальным значе- 
ниями величин хо: 4а, = Хм) — Ха). Величина д а, сама по себе не- 
удобна в качестве меры изменчивости, так как она неустойчива по 
отношению к резким отклонениям. Однако можно оценить размах не 
по крайним членам ранжированного ряда ҳм) и д), а по членам ряда 
с умеренными отклонениями. Удобно в качестве них взять такие чле- 
ны ряда (процентили), между которыми находится определенная 
доля (процент) членов ранжированного ряда наблюдений. Часто для 
этого берут 50 и 80%. Иными словами, для оценки изменчивости сле- 
дует найти такие величины признаков, между которыми лежит 50%- 
ная или 80%-ная часть площади под гистограммой. 

оценку 50%-ного размаха называют еще межквартильным размахом, 
ибо это различие между квартилями 0! и 0”, которые отсекают от 
распределения по четверти всех наблюденпй с каждого края ранжи- 
рованного ряда; 80% -ный размах называют междецильньм, так как он 
оценивает различие между децилями и О", отсекающими по 
десятой части всех наблюдений с обоих концов ранжированного 
ряда (рис. 41). Квартили и децили мы советуем вычислять так: 


а =", Р'= хау, О = ҳан), 


где 4'=(/4)+0,5;4"= 3(№/4)+0,5;4'= (М/10)+0,5:4 = (9%/10)+0,5. 
Тогда за меру изменчивости можно взять величины 50 или ӛр: 

5о- 0,741 (0-0), 

$р = 0,390 (р”-р). 

Числовые коэффициенты 0,741 и 0,390 здесь, как и при оценке меди- 
анного отклонения, взяты для нормализации: при нормальности рас- 
пределения их генеральные значения совпадают с 6. Если величины 4 
и 4 нецелые, то 0” и О оценивают путем линейной интерполяции, как 


указывалось выше. Аналогично оцениваются р”и О’. Меры измен- 
чивости 50 и $р назовем соответственно нормированным межквар- 
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Рис. 41. Межквартильный (0’, О") и 
междецильный(), О") размах 


1 0 и 
тильным размахом и нормированным междецильным размахом. Для 
краткости будем опускать слово "нормированный". 

Оценим ѓо и ӛр для рассмотренного примера, где медианное 
отклонение $ = 2,52. Так как М = 15, то 4 = (15/4) + 0,5 = 4,25; 4 = (3. 
15/4) + 0,5 = 11,75; 4-- (15/10) + 0,5 = 2; а" = (©. 15/10) + 0,5 = 14. 

Поскольку Ха) = 172,0; Ху = 172,3; ха) = 175,0; хад = 175,7, то 


0-(0-025)ха)% 0,25 ху = 172,08, 
О" = (1 - 0,75) Ха1) + 0,75 №12) = 175,53, 
Р = 170, О” = 176,3. 


Следовательно: $0 = 2,56; ӛр = 2,46. Мы видим, что эти оценки близки 
ку 

Рассмотренные параметры изменчивости отличаются друг от дру- 
га по характеру представления вариабельности признака: 5 оценивает 
общую изменчивость; ѓо оценивает вариабельность средней части, 
"ядра" распределения; $ оценивает изменчивость основной массы 
распределения, за исключением фенодевиантов. | 

Медианный коэффициент вариации. На основе полученных па- 
раметров можно определить следующие величины: 


2-1005, Со =10020., бр -100:0., 
х ра -Х 


Смысл их тот же, что и обычного коэффициента вариации. 

Медианные асимметрия и эксцесс. На основе обсужденных 
величин можно определить и такие характеристики распределения, 
как асимметрию и эксцесс. Обычно эти параметры оцениваются на 
основе моментов третьего и четверного порядков, которые еще менее 
устойчивы к отклонениям и нарушениям вида распределения, чем 
дисперсия (момент второго порядка). Приведем оценки этих пара- 
метров на основе порядковых статистик: асимметрии А и эксцесса Е 


Ао Е: (0":0-2%)(0"-0). 

Аря(Р"+0-2х)(0"-0), 

Ё = 1.9(0"-0)/(0"-~р?)|-1 тои 

Коэффициенты асимметрии Ао и Ар оценивают соответственно 
асимметрию "центра" распределения и асимметрию основной (без 


фенодевиантов) части распределения. Для нормального распреде- 
ления оба эти коэффициента, а также коэффициент эксцесса Е равны 0. 
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Вычислим эти коэффициенты для рассмотренного примера: 
АО = (175,53 + 172,08 – 2 · 173,7)/(175,53 - 173,08) = 0,21, 

Ар = (176,3 + 170,0 ~ 2 · 173,7)К176,3 - 170,0) = -0,17, 

Ё = 1,9[(175,53 - 172,08)/(176,3 – 170,0)] – 1 = 0,04. 


Статистические тесты 


Следующий шаг после оценивания параметров — сравнение полу- 
ченных оценок и выявление значимости или незначимости различий. 
Таким образом и здесь возникает задача проверки нуль-гипотез. Хотя 
методы сравнений медианных показателей разработаны не столь под- 
робно и корректно, как в теории нормальных распределений, все же 
мы приводим некоторые из них, поскольку статистическое тестиро- 
вание — неотъемлемая часть популяционного анализа данных. 

Сравнение выборочных медиан. Можно предложить стандарт- 
ный критерий сравнения выборочных оценок медиан АХ, и Хо: 


і- (ў — з) + 52, 


где 51 и 5; — статистические ошибки оценок медиан. Величину І надо 
сравнить с табличным значением г,-распределения (и = М, + № -2) 
для выбранного уровня значимости. Можно проверять как односто- 
роннюю, так и двустороннюю гипотезу. Этот критерий ириближенный. 
Приведем теперь другой метод сравнения, так называемый ме- 
дианный критерий [8асһѕ, 1982]. Пусть имеются две выборки 
численностью №; и М; каждая: хі, х2,... ХМ, и у, у2,..-, Ум). 


Обозначим Х общую медиану суммы этих выборок: 


х = тей(х1... „Хм, До „ Ума). 


Суть медианного критерия в следующем. Пусть п! — число особей 
из первой выборки, значения признака х; у которых меньше чем Х. 
Аналогично пусть по — число особей из второй выборки, для которых 
у; <Я. М1 + М; нечетно: тогда если медиана Х принадлежит первой 
выборке, топ, — число особей, у которых х; < Х, плюс 1/2, по оп- 
ределяется по-прежнему; если же медианное значение принадлежит 
второй выборке, то по — число особей, у которых у; < Х, плюс 1/2, а 
п, — прежнее. Обозначим р; = п/М, р = п/Мо — доли этих особей в 
"своих" выборках. Медианный критерий — это тест на различие вы- 
борочных оценок частот р! ир; в выборках объемов №; и М;. Для 
этого надо применить любой из методов $1 гл. 2 (например, ф- 
критерий или точный критерий Фишера). 

Медианный критерий имеет меньшую мощность, чем {-критерий, но 
он применим в любых ситуациях, вне зависимости от вида распре- 
делений признака. Его удобство еще и в том, что он естественно 
обобщается на случай сравнения нескольких выборок. Пусть имеются 
Е выборок; численность каждой из них: №, №,..., Му. Требуется 
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выяснить, значимо ли отличаются друг от друга выборочные ме- 
дианы? Медианный критерий чрезвычайно прост и алгоритм его сле- 


дующий. 
Пусть х — общая медиана всех № наблюдений всех К выборок (М = 


= №; +№ +... + Му: 


%-тей(Х11,..., Хм > Хоро до 9 Хам }, 
где ху,..., Хуму — значения признака у особей 1-й выборки; х1, ..., 
Хм — 2-й выборки и т.д.; хи,.. „ХЕМ; — значения признака для вы- 


борки номера К. Пусть п] — число особей первой выборки, у которых 
значения признака меньше (соответственно М|--п) особей превы- 
шают #), п — число особей второй выборки с хо; < Х ит.д., пк — число 
особей выборки К, для которых ху < Х. (Если М нечетно и медианное 
значение принадлежит г-й по номеру выборке, то п; — число особей 
этой выборки сх; < Я плюс 1/2; остальные п; определяются так, как 
было сказано) Обозначим р! = п/Мъ,ро = п2/№, . . ., рк = ПМЕ — 
частоты особей с такими значениями признака в выборках. Медиан- 
ный критерий заключается в тестировании этих частот на гетероген- 
ность; применим любой из приведенных в гл. 2 статистических крите- 


риев. 
Медианный тест является полностью зациценным от любых нару- 


шений вида распределений и от резко выделяющихся наблюдений. Он 
применим даже в тех случаях, когда сравниваемые выборки имеют 
контрастно различающиеся распределения. Поэтому в тех случаях, 
когда есть сомнения в одинаковости типа распределений сравни- 
ваемых группировок (а подобное — не редкость в популяционных ис- 
следованиях), медианный критерий незаменим. Вместе с тем такая 
устойчивость медианного критерия, естественно, уменьшает его 
мощность. И в тех случаях, когда есть уверенность в сходстве типов 
сравниваемых распределений, лучше использовать более мощные для 
таких ситуаций критерии: Вилкоксона--Манна--Уитни (для пары вы- 
борок) и Крускалла--Уоллеса (для нескольких выборок; детали см.: 
[Глотов и др., 1982]) или приближенный /-критерий. Ну, а в тех ситуа- 
циях, когда мы уверены в нормальности всех распределений, можно 
применять обычные критерии, основанные на моментах. 
Тестирование показателей изменчивости. Коснемся теперь 
вопроса сравнения выборочных оценок медианных стандартных 
отклонений $, и 3». Распределение их отношений (точнее, отношение 


ны 2,2 
квадратов 2 / % в отличие от отношения дисперсий (51/5) при 


нормальности признака неизвестно и, скорее всего, значительно 
отличается от Ғ-распределения. Поэтому здесь мы воспользуемся 
общими рекомендациями 83 гл. 1. В связи с этим отметим, что, как и в 
случае с обычным стандартным отклонением, ошибка 5; растет 
приблизительно пропорционально $, Как указывалось в 83 гл. 1, надо 
вначале провести логарифмическое преобразование оценок, после 
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чего вычислить величину {-критерия: 


(пя -шщ 52) 


212212 г 
1% /8 +55 /% 


= 


где 5; и 5;, — ошибки оценок $, и 52; число степеней свободы у = № + 


+ № – 4. Следует отметить, как и прежде, что этот критерий следует 
применять лишь в тех случаях, когда выборочные ошибки невелики. 
Это означает, что объем выборки должен быть не менее 20—25; при 
этом распределение { близко к нормальному и для него можно 
пользоваться таблицей нормального распределения. 

Известны статистически более обоснованные методы сравнения 
распределений по степени их изменчивости, но безотносительно к 
конкретной мере вариабельности. Это снижает их полезность; но пре- 
имущество их заключается в разработанности теории. Поэтому их 
можно и нужно применять в тех случаях, когда {-критерий не совсем 
четко указывает на различия. 

Приведем один из таких методов: метод Сигела и Тьюки. Он основан 
на сопоставлении рангов в сравниваемых выборках. Для этого обе вы- 
борки объединяются и ранжируются как одно целое. Обозначим ран- 
жированные величины, как и прежде, Ха» Хо» Х(3» зо Х(М-1) хм), 
где № = М, + №; М! — объем первой выборки; М; — соответственно 
второй (для определенности пусть М, < М;). После этого 
минимальному наблюдению, т.е. величине х1), приписывается индекс 
1. Затем двум максимальным наблюдениям ХМ) и ХМ — 1) приписывают 
индексы 2 и 3 соответственно. Затем оставшимся двум минимальным 
наблюдениям хо) и хз) приписываются индексы 4 и 5, наблюдениям 
Х(м-2) ИХ -з) индексы 6 и Ти т.д. После индексирования всех 
наблюдений подсчитывается сумма индексов для всех наблюдений, 
относящихся к первой выборке. Обозначим ее |. Подсчитывается 
также сумма индексов для всех наблюдений из второй выборки — 7,. 
Значимость различий определяется по величине 


и = [211 – М, (М + 1) +5] ММА + ПМЗ, 


где ё =1, если 2 < М. (М + 1); 8 = -1, если 21; > М1(М - 1). Величина и 
имеет примерно нормальное распределение. Поэтому уровень значи- 
мости определяется по таблице нормального распределе- 
ния. Например, если Ш > 1,96, то уровень значимости о < 0,05. 

Данное выражение для определения значимости различий прибли- 
женное и справедливо при немалых М, и №, (> 10), примерно равных 
численностях и отсутствии повторяющихся по величине наблюдений. 
Если численности значительно различаются, то по таблице нормаль- 
ного распределения надо проверять не и, а скорректированное его 
значение 
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Рис. 42. "Медианный" и обычный корреляционные эллипсы при наличии отклоняю- 


щихся наблюдеиий 
Темные кружки — нормальные наблюдения, светлые — отклоняющиеся. Штриховая 
линия — корреляционный эллипс с учетом всех наблюдений, сплошная — только 


нормальных 


Оценка ковариаций и корреляций. Известны различные подхо- 
ды к робастной оценке показателей взаимосвязи признаков [Хью- 
бер, 1984]: Мы здесь укажем одну из возможных оценок медианной ко- 
вариации Сб\(х, у): в А Е 

Сбу = 2,193тей((1 -#01 - Ӯ), (х2 - 9072-9), + См- 2Он- У}, 
где (жи, У1), (хо, У2), + + (Хм ум) — значения пары признаков У всех № 
особей; Хиу — медианы этих признаков. Множитель 2,193 — это 
1,4812, он нужен для "сопряжения" с оценкой ковариации в случае 
нормальности. 

Соответственно можно определить медианный коэффициент кор- 
реляции 

р = Сбу/(5х, $у), 
где 5х и $, — оценки медианных стандартных отклонений: 

$, = 1,481 пей (ік -Ж,... ку- #1), 

5у- 1,481 пей 1 - 9, .. Лум- Ў) 


К сожалению, нам неизвестны формулы для его распределения и 
статистической ошибки. Зато он устойчив к различного рода нару- 
шениям, в частности к “выбросам" (см. рис. 40). Неустойчивость обыч- 
ного коэффициента линейной (и ранговой) корреляции связана с тем, 
что линейная корреляция подразумевает построение корреляцион- 
ного эллипса, охватывающего все без исключения наблюдения (при- 
чем больший вес придается далеко отстоящим точкам; рис. 42). Ме- 
дианная корреляция, напротив, ориентирует корреляционный эл- 
липс по основной массе наблюдений (но не по всем), игнорируя при 
этом далекие точки. 
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$3. МЕТОДЫ МНОГОМЕРНОГО АНАЛИЗА 


Несомненно, что анализ по каждому признаку в отдельности не- 
обходим. Но это только первый этап исследования, так как действие 
популяционно-генетических факторов сказывается не на отдельных 
признаках, а на комплексах признаков. Решить задачи, связанные с 
изучением изменчивости совокупностей признаков, можно методами 
многомерного анализа. Вопросы многомерного анализа мы рассмат- 
риваем здесь по двум причинам, связанным с проблемой робастного 
оценивания, которая является основной в этой главе: во-первых, 
чтобы обсудить возможность сведения комплекса признаков к одно- 
мерным характеристикам, к которым можно применить рассмотрен- 
ные в 52 робастные методы; во-вторых, чтобы указать на определен- 
ные робастные свойства некоторых обобщенных характеристик комп- 
лекса количественных признаков. 

В многомерной статистике можно выделить две группы методов. 
Одна группа методов позволяет проводить сравнения и оценивать 
некие интегральные параметры анализируемого комплекса призна- 
ков. Достоинство этих методов в том, что они рассматривают измен- 
чивость этого комплекса признаков как единого целого. Недостаток 
их в неразработанности теории многомерных распределений для ро- 
бастных оценок. Другая групьа методов лишена этого недостатка. 
Суть этих методов — в замене исходных признаков их комбинациями, 
в основном линейными комбинациями. С каждой такой комбинацией 
обращаются затем как с обычным признаком, применяя к ней стан- 
дартные методы сравнений и оценки параметров. При этом возможно 
(даже необходимо) применение робастных статистических процедур 
($2). Недостаток же этой группы методов — в неполном использова- 
нии информации об изменчивости изучаемого комплекса признаков. 

Оба этих подхода дополняют друг друга. Выявленные ими особен- 
ности изменчивости комплекса признаков существенно разные. По- 
этому далее мы кратко рассмотрим и тот и другой. 


Основные принципы многомерной статистики 


Методы анализа совокупностей признаков называют многомер- 
ными. Название это пришло из Геометрии: особь, характеризующаяся 
определенными значениями данного набора признаков, может быть 
геометрически задана точкой в многомерном пространстве приз- 
наков; координаты этой точки суть значения соответствующих приз- 
наков особи. Выборка особей в таком случае представляется в виде 
"облака" точек в этом пространстве, концентрирующихся около цент- 
ра — средних значений признаков. Для большинства признаков — тех, 
что распределены относительно нормально, — это облако имеет 
овальную форму и описывается в основной своей массе эллипсом (эл- 
липсоидом) рассеяния. На рис. 43 он показан для двух признаков. 

Степень и характер изменчивости по набору количественных приз- 
наков геометрически определяются размерами эллипса рассеяния, 
его формой, а также расположением в пространстве признаков отно- 
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Рис. 43. Эллипс рассеяния 


сительно других эллипсов, представляющих другие выборки из той 
же или из другой популяции. Охарактеризовать и оценить эту из- 
менчивость на основе некоторых количественных мер и призваны ме- 
тоды многомерного анализа, которые сейчас разрабатываются для 
нужд популяционной биологии [Уап Уа!еп, 1978; Тауіог, Мшоп, 1974; 
бока!, 1978; Регкіпѕ, 1974; Васки!, Веутеги, 1971; Животовский, 1984]. 
Отметим, что эти методы зиждятся на принципах многомерного ста- 
тистического анализа, освещенных в литературе по теоретической и 
прикладной статистике (Андерсон, 1963; Кендалл, Стьюарт, 1976; 
идр.]. 

Вектор признаков. Пусть каждая особь характеризуется зна- 
чениями р количественных признаков, которые будем обозначать 


Х1,Х2,. + » Хр. Можно обозначить их кратко в векторной форме (см. 53 
ГЛ. 1): 
ХТ -(хі,Х2,.. Хр). 
Пусть 
т 
ху = (хи, 12, .. „Х1р), 
Т -- 
х; Бак (Хо, Х22» ..Ж Хор), 
Т -- 
хм = (Хм, Х№2, + - Хр) 


— векторы признаков особей в выборке объема М. Векторная запись 
позволяет компактно представить основные характеристики измен- 
чивости признаков. Между прочим, такая запись позволяет увидеть 
аналогию основных многомерных оценок и критериев с обычными 
одномерными оценками и критериями. Например, вектор средних оп- 
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ределяется как 


М 
011 
та г 
Ма 
Это означает, что компоненты вектора Х = (%1,..., Яр) составлены 


М 

из средних: Х;= ууу - среднее значение /-го признака в выборке. 
іі 
Современное компьютерное обеспечение предусматривает 
выполнение матричных операций, что существенно облегчает реали- 
зацию многомерных методов. 

Ковариационная и корреляционная матрицы. Базовой ха- 
рактеристикой изменчивости комплекса признаков группировки осо- 


бей является так называемая ковариационная матрица 


2 
бі 012 ...бір 
с2 
621 2 Озр 
2 
бр! бр2 66р | 


Это квадратная матрица размерности р (гдер —число признаков), в 
которой по главной диагонали стоят генеральные значения дис- 
персий каждого из признаков, а вне диагонали — ковариации этих 
признаков. Иногда эту матрицу называют вариационно-ковариа- 
ционной (особенно в англоязычной литературе: уапапсе-соуапапсе 
ташх); нередко употребляют термин матрица рассеяния. Она симмет- 
рична, так какот» = 021, Суз = Оз: ит.д. 

Определим теперь выборочную оценку ковариационной матрицы; 
обозначим ее $: 


51 Сф он Ср 

2 
С. 57 + С2 
5-21 52 р 
2 
ср Ср2 4.... ӛр 


По главной диагонали матрицы 8 стоят оценки дисперсии призна- 
ков 
2 1 


52 = —— хў - М: |, 1+1,2,...,р; 
О 


М 
-_1 Е : 
здесь х = у Хх) — среднее значение /-го признака в выборке. Вне 
і=1 
диагонали матрицы $ стоят оценки ковариации признаков: 
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1 (А = 
Ссш-- Хх; -Мх;х Е 
1 > уХи ум 

= 


Формулу для ковариационной матрицы можно записать в более 
удобном векторном виде: 


1 Тора 
$=— | Ухх; МЯ |, 
М-1 2 за 


где -- знак транспонирования; х; —вектор-строка признаков і-й осо- 


-_1 
би; х — вектор средних значений: х= Ух Очевидна полная 


аналогия с одномерным случаем. 
Корреляционная матрица. В дальнейшем нам понадобится так 


называемая корреляционная матрица Е, элементы которой — это 
коэффициенты корреляции г;;: 


172 ....... Пр 
_ | 721 р 
Үр] Үр? Дък 


Величины гу, как известно, выражаются через элементы ковариа- 
ционной матрицы: 

п) = 5110,0. 

И наоборот, зная коэффициенты корреляции и стандартные откло- 
нения признаков, можно восстановить матрицу ковариаций по фор- 
муле 

Зу = 71010. 

В 52 этой главы мы показали, насколько предпочтительнее устой - 
чивые оценки дисперсий, ковариаций и корреляций. Обозначим 5 и 


Ё —ковариационную и корреляционную матрицы, элементы которых 
являются медианными оценками: 


ғ б12 22... бір 1 йә ...... Пр 
я. #2 С. г 1 Р 

% ...... С “ 21 е Р 

5- С21 52 2р | Б- К 
х Ж 52 Ғд 7.2 .... 1 
рі р 
Ср] Ср2 2. др 
где $; — робастные оценки дисперсий признаков; су — робастные 


оценки ковариаций; 71; -- робастные оценки коэффициентов корре- 
ляции (см. 52). В тех случаях, когда необходимо определить линейные 
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комбинации признаков (в том числе главные компоненты), лучше ис- 
пользовать робастные оценки и обращаться к матрицам $ и К, ане к 
5 и А. Однако для оценки интегральных параметров и анализа всего 
набора признаков мы пока еще вынуждены ограничиваться оценками 
8 ИК, поскольку для них (в отличие от $ ий) известен вид 
теоретического выборочного распределения. Правда, с ростом числа 
признаков р некоторые из этих интегральных параметров становятся 
устойчивыми к отклонениям от нормальности и "засорению". Кроме 
того, темпы развития теоретической статистики сейчас таковы, что 
через несколько лет главы, подобные этой, нужно будет перепи- 
сывать заново, поскольку с появлением новых робастных процедур 
методы многомерного анализа будут все больше совершенствоваться. 

Методы сравнения, основанные на нормальном распре- 
делении. В этом разделе мы, подобно тому как это было сделано в 61 
этой главы, рассмотрим многомерные методы сравнения, основанные 
на гипотезе нормальности. 

Пусть имеется К случайных выборок, каждая объемом М; (і = 1,2,.. 
„ К). Одна из основных первичных задач — выяснить, значимо ли от- 
личаются эти выборки друг от друга по всему комплексу признаков. 


Пусть х;; —вектор признаков /-й особи в і-й выборке (ј = 1,2,...,М; 
і= 1,2,..., К). Обозначим х; — вектор средних значений в і-й выборке: 
=. Дем 
х. = — Хх; 
і М; 1]. 


Следует выяснить, значимо ли средние х; отличаются друг от дру- 
га. В одномерном случае (когда анализируется только один признак) 
это задача так называемого однофакторного дисперсионного ана- 
лиза. Однако одно из его условий — незначимое различие всех вы- 
борочных дисперсий (в общем случай — ковариационных матриц). Но 
это не всегда выполнимо, поэтому лучше использовать критерий Ку- 
льбака [1967]: 


Ік = У, М(х; -%) 8 ЦЕ - ғ), 


В 
где $; — оценка ковариационной матрицы і-й выборки; жы; У М. 
№; 


к 
— общий средний вектор; № = УЛ, — суммарный обьем выборок. 
ігі 
Чтобы проверить значимость /;, следует для данного уровня зна- 
чимости а определить вначале критическое значение Х2-расп- 


2 
ределения с у = (Ё – 1)р степенями свободы (обозначим его 2.) а 
затем вычислить величину 
ж 2 2 
Ік = Хоу (А+ ВХоу ), 
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-1 2 
Е А В: 4 
а а 41 [$57 №5; ||; 
1=1 


аттау МЕ 
к к -1 А 7 
ВЕ = кенен аны. (ўма м8 | + 
р(к-1)р(к -1+2] М: -1 І 


ка-06-1] | 
Различие считается значимым на уровне о, если ГК > Гк [Кульбак, 


71. 5 
ре Кульбака применим, если все М; > р. Это условие необхо 


а 
димо для существования обратных матриц 8; . Следовательно, при 


большом числе признаков и небольших объемах выборок 2 
критерий нельзя использовать. В этом случае необходимо обратить 
к другой разновидности Е-критерия [Аренс, Лёйтер, 1985]: 


М-К-р+1 К (тт) 5! а) 
и 


где 
М; , 
1. Ба ы 
---- Х;-Х; Хх Хх Е 
$» Ех > у И у ) 
или 
13 м-1)8 
5, р 2 :-1)8;. 


Его надо сравнивать с Р-распределением со степенями свободы 
числителя и знаменателя у, и Ур: 


_ (Е-ПР(М-Е-Р) 
МОИ (к-Вр-2” 
ум = М-К-р+1. 


Указанное правило справедливо в том случае, когда М>(К-Цр+ 2. 


Если М < (к – 1)р + 2, то критерий иной: 


-1 
(у-2ХЕ-1р(М-А Ас 4-5) | 
хг 82206-00 АУ ума х) 5» (х;-х) 


2 
где Х? при справедливости нуль-гипотезы распределено как Х* су 
степенями свободы: 


(м-к-р-10%-6-р- 31% -(6-1)р-2] 


у=(М-&-р+1)- (М-%-1(М-р-2) 
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Указанный критерий требует меньше вычислений, чем [к, 
поскольку надо определить только одну обратную матрицу 8. Кроме 
того, он применим при любых М; (требуется лишь, чтобы № > 6 + р). 
Однако он основан на предположении, что все матрицы 8; незначимо 
отличаются друг от друга (т.е. выборки взяты из генеральных 
совокупностей с одинаковыми ковариационными матрицами). В то же 
время критерий однородности ковариационных матриц 
предполагает, что все №; > р |Кульбак, 1967]. Но при М; > р лучше при- 
менять критерий Ік. Таким образом, условие М, >р, № >р, ..., М, > 
>р является важным для проверки однородности средних. Поэтому 
лучше выделять наборы признаков из всего комплекса, чтобы 
количество признаков в каждом таком наборе было меньше 
минимальной численности групп М;, затем применять критерий |қ 
отдельно по отношению к каждому набору признаков. Лишь в крайнем 
случае следует обращаться к данному здесь Ғ-критерию. 

Если же возникает необходимость сравнения ковариационных мат- 
риц (вне проблемы оценки однородности средних значений), то также 
можно использовать информационный критерий Кульбака [1967]: 


к 
се УМ де(5) | 
ігі де(5;) 
где51,5;,...,8, — сравниваемые ковариационные матрицы раз- 


мерности р, оцененные по выборкам объема М, М;,... №. Здесь $ — 
сводная ковариационная матрица: 


8 Гу 5 
= — М: Ц 


к 
М- суммарная численность: ү = УМ. 


Да! 
При справедливости нуль-гипотезы (равенстве всех генеральных 
ковариационных матриц) величина /; подчиняется т.н. В-распре- 
делению с параметром В? и числом степеней свободы у: 


у= 2(6-0)р(р+) 


При у> 7 можно использовать следующую аппроксимацию: вели- 


2 
2 
чину (1 - В.) можно считать распределенной примерно, как Х; с у 


степенями свободы. 
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Различия между ковариационными матрицами могут быть обу- 
словлены как неоднородностью корреляций, так и неоднородностью 
дисперсий признаков. Поэтому общий критерий 15 можно представить 
в виде двух слагаемых ІКульбак, 1967]: 5 = ГВ + [5, 


где 
Е дек 
р=УМмМ М 
Е 2 ; де: А, ў 
К 5252...52 
Г = УМ; Ш. 
і=] 511512 ее Бр 
Здесь В и Ё; — корреляционные матрицы, соответствующие кова- 
2 2 
риационным матрицам $ и 8; 5;1. . . 5; — произведение диа- 
2 2 
гональных элементов (дисперсий) матрицы 51; 51. . ., 5, — то же, для 


матрицы 5. Величина Г имеет В-распределение с параметрами 


Ей 1 
у = 1/2(К - 1)р(р - 1), В, =ош) Аналогично /, 
= 


Е 
имеет такое же распределение с у = (К- 1)р, В? = 3 5-4) Если 
2 


2 В? 
у> 7, то 16| 1 — — | распределена . как х ; аналогично для а- у ). 
М 


Следует отметить также, что в приведенных критериях исполь- 
зуются ковариационные матрицы, оцененные методом моментов, что 
делает их крайне чувствительными к отклонениям от нормального 
распределения и к "выбросам". Однако сегодня еще не создана общая 
теория многомерных распределений для робастных оценок, и сейчас 
нет иного выхода, как пользоваться существующими статистическими 
процедурами. Поэтому мы не касаемся больше многомерных методов 
сравнения, которым посвящена значительная литература по матема- 
тической статистике. Чтобы получить удовлетворительные резуль- 
таты, применяя, например, /к-критерий, пока не остается ничего, 
кроме как рекомендовать предварительную нормализацию признаков 
путем соответствующих преобразований и исключение резко выде- 
ляющихся аномальных наблюдений. 


Обобщенные характеристики комплекса признаков 


В этом разделе мы приводим интегральные параметры, оцени- 
вающие данный комплекс признаков в выборках. Такие параметры час- 
то бывают полезны. Например, пусть методы предыдущего раздела 
показывают, что есть различия между ковариационными матрицами. 
А каковы эти различия: где больше, а где меньше изменчивость? 0боб- 
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щенные параметры (в частности, обобщенная дисперсия) позволяют 
оценить эти различия. 


Обобщенная дисперсия. Пусть $ —выборочная оценка ковариа- 
ционной матрицы: 


Здесь х!,..., хм — векторы значений признаков М особей. В качестве 
меры изменчивости комплекса признаков была введена стандарти- 
зованная обобщенная дисперсия по аналогии с обычной дисперсией 


признака [Животовский, 1980; Животовский, 1984]. Оценка ее дается 
формулой 


52 = с де, 


где е — определитель матрицы 8; С — поправка на смещение. 

Для биологических приложений важным свойством стандартизо- 
ванной обобщенной дисперсии является полная статистическая ана- 
логия с обычной, одномерной дисперсией. В частности, если 92 — 
генеральное значение стандартизованной обобщенной дисперсии, то 
величина 152/02, как и в случае обычной дисперсии, имеет распреде- 
ление, близкое к Х с у степенями свободы |Животовский, 1980]. Эта 
аппроксимация удовлетворительна при объемах выборки (М), при- 
мерно в 2 раза превышающих число признаков (р). Значения С и у для 
значений р = 2+ 15 указаны в табл. 23. Для больших, чем в таблице, 
значений М справедливы следующие приближенные формулы: 


2 

М р.р 
СОМ р) = —— ехр| 2 + ; 
(р) мт 013 ву? 


У(М.р)-р?/|Ца(М-1)-ІЦ(М-р-1)) 


Точные выражения для С и уследующие: 


б=(м-1)/т, у=2 


где 


здесь Г — гамма-функция [Животовский, 1980]. 
Указанные формулы были получены исходя из предположения, что 
распределение совокупности признаков нормальное. К сожалению, 
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Таблица 23 
Поправки С и степени свободы у для. обобщенной | дисперсии’ (значения М 


табулированы отр + 1 дор + 30) 


р+1 2,00 2,00 2,48 3,43 2,72 5,22 
р+2 1,50 4,00 1,77 6,61 1,94 9,78 
р+3 1,33 6,00 1,52 9,71 1,66 14,07 
р+4 1,25 8,00 1,40 12,77 1,51 18,26 
р+5 1,20 10,00 1,32 15,81 1,41 22,38 
р+6 1,17 12,00 1,27 18,84 1,35 26,47 
р+7 1,14 14,00 1,23 21,86 1,30 30,53 
р+8 1,12 16,00 1,20 24,87 1,26 34,58 
р+9 1,11 18,00 1,18 27,89 1,24 38,63 
р+10 1,10 20,00 1,16 30,90 121 42,66 
рап 109 22,00 1,15 33,91 1,20 46,69 
р+ 12 1,08 24,00 1,14 36,91 1,18 50,71 
р+ 13 1,08 26,00 1,13 39,92 117 54,73 
р+ 14 1,07 28,00 1,12 42,92 1,16 58,75 
р+ 15 1,07 30,00 141 45,93 115 62,77 
р+16 1,062 32,00 1,103 48,933 1,136 66,780 
р+ 17 1,059 34,00 1,097 51,937 1,128 70,792 
р+ 18 1,056 36,00 1,092 54,941 1,121 74,803 
р+ 19 1,053 38,00 1,087 57,944 1,115 78,813 
р+20 1,050 40,00 1,082 60,946 1,110 82,822 
р+ 21 1,048 42,00 1,079 63,949 1,105 86,830 
р+ 22 1,045 44,00 1,075 66,951 1,100 90,837 
р+ 23 1,043 46,00 1,072 69,953 1,096 94,844 
р+ 24 1,042 48,00 1,069 72,955 1,092 98,850 
р+ 25 1,040 50,00 1,066 75,957 1,088 102,86 
р+ 26 1,038 52,00 1,064 78,958 1,085 106,86 
р+ 27 1,037 54,00 1,061 81,960 1,082 110,87 
р + 28 1,036 56,00 1,059 84,961 1,079 114,87 
р + 29 1,034 58,00 1,057 87,963 1,076 118,87 
р+ 30 1,033 60,00 1,055 90,964 1,074 122,88 


ЭД 


сейчас нельзя сказать, какова модификация, позволяющая определить 
обобщенную дисперсию по матрице $ с медианными оценками. Однако 
ограничение, вызванное гипотезой нормальности, возможно, не 
столь уж жестко. Как показано М.М. Рахманом в серии статистиче- 
ских экспериментов, теоретическое распределение оценки стандар- 
тизованной обобщенной дисперсии тем ближе к 72, чем больше число 
признаков, даже если исходное распределение признаков далеко от 
нормального [2һіуоіоуѕКу, 1988]. 


2 
Поскольку величина у52/02 приблизительно распределена, как Ху. 


% 
то статистические методы для обобщенной дисперсии идентичны ме- 
тодам, имеющимся для одного признака. Статистическая ошибка дис- 
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2,83 7,34 2,89 9,79 2,92 12,54 2,94 15,60 
2,05 13,46 2,14 17,64 2,20 22,29 2,25 27,41 
1,5 19,06 1,83 24,63 1,89 30,77 1,94 37,46 
1,59 24,43 1,66 31,25 1,72 38,70 1,77 46,75 
1,48 29,68 1,55 37,67 1,60 46,34 1,65 55,65 
1,41 34,86 1,47 43,98 1,82 53,81 1,56 64,32 
1,36 39,99 1,41 50,21 1,45 61,17 1,50 72,83 
1,32 45,10 1,36 56,40 141 68,45 1,44 81,24 
1,28 50,19 1,33 62,55 1,37 75,69 1,40 89,58 
1,26 55,26 1,30 68,68 1,33 82,88 1,37 97,85 
1,24 60,32 1,27 74,78 1,31 90,04 1,34 106,1 
1,22 65,37 1,25 80,37 1,28 97,18 1,31 114,3 
1,20 70,42 1,23 86,95 1,26 104,3 1,29 122,5 
1,19 75,45 1,22 93,01 1,25 111,4 1,27 130,6 
1,18 80,49 1,21 99,07 1,23 118,5 1,26 138,8 
1,166 85,517 1,194 105,12 1,219 125,58 1,244 146,882 
1,157 90,543 1,183 111,17 1,208 132,66 1,231 154,991 
1,148 95,567 1,173 117,21 1,197 139,72 1,219 163,089 
1,141 100,58 1,165 123,25 1,187 146,78 1,209 171,178 
1,134 105,60 1,157 129,28 1,179 153,84 1,199 179,259 
1,128 110,62 1,150 135,31 1,171 160,89 1,190 187,333 
1,122 115,64 1,143 141,34 1,163 167,93 1,182 195,401 
1,117 120,65 1,138 147,37 1,187 174,98 1,175 209,464 
1,113 125,66 1,132 153,39 1,151 182,01 1,168 211,522 
1,108 130,68 1,127 159,41 1,145 189,05 1,162 219,576 
1,04 135,69 1,122 165,44 1,140 196,08 1,156 227,626 
1,100 140,70 1,118 171,46 1,135 203,12 1,151 235,672 
1,097 145,71 1,114 177,47 1,130 210,14 1,146 243,716 
1,094 150,72 1,110 183,49 1,126 217,17 1,141 251,756 
1,091 155,73 1,107 189,51 1,122 224,20 1,137 259,794 


персии 5,2 и ошибка среднеквадратичного отклонения 5,: 


5 = 2,2 бет 21: 
пу" {29° 


Из этой формулы видно, что, несмотря на малый объем выборки, 
ощибки достаточно малы по сравнению со случаем одного признака. 
Такое повышение точности обусловлено тем, что вся совокупность 
информации о многих признаках используется для оценки одного- 
единственного обобщенного параметра. Малая ошибка — характерная 


особенность обобщенных параметров: примерно в Үр раз меньше, чем 
ошибки соответствуюцих одномерных параметров. 
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Таблица 23 (окончание) 


+1 2,95 18,95 2,95 22,59 2,95 Ди 
5 2 298 32,98 2,32 38,99 2,35 | 
А 3 199 4468 2,03 52,43 2,06 Ги 
К 4 181 55,40 1,85 64,63 1,88 я 
и 5 169 65,60 1,73 76,17 176 87,3 
Ж; 6 160 75,49 1,64 87,32 1,67 99,79 
ЖЕ 7 153 85,19 1,57 98,22 1,60 иа 
А А 8 148 94,74 1,51 108,9 1,54 122 
р +9 144 104,2 1,47 119,5 5% ие 
р + 10 1,40 113,6 1,43 130,5 и Ци 
р+ 11 1,37 122,9 1,40 140,5 и ев 
р+ 12 1,34 132,2 1,37 150,8 2 иа 
р+ 13 1,32 141,4 1,34 161,2 47 ши 
ев ЛЕЛЕ е, АЕ ее 
1,28 159,8 1,31 , | р 
> у т 1267 168,99 1,289 191,92 0 аре 
р + 17 1,243 178,15 1,274 202,12 12и иа 
+ 18 1,240 187,28 1,261 212,30 1, сан 
А + 19 1229 196,41 1,249 222,47 126 га 
р + 20 1,219 205,52 1,238 232,62 ба ща 
р+ 21 1,209 214,62 1,228 242,76 СЕ па 
р+22 1,201 223,72 1,218 252,89 125 2 
р+ 23 1,193 232,81 1,210 263,01 122 За 
р + 24 1,188 241,89 1,202 273,12 25 2. 
+ 25 1,179 250,96 1,195 283,22 1, и 
Е + 26 1172 260,03 1,188 293,31 иа За 
р + 21 1,666 269,10 1,181 303,40 Ею иа 
р+ 28 1,161 278,16 1,176 313,48 го и 
р+29 1,156 287,22 1,170 323,56 е а 
р + 30 1,151 296,27 1,165 333,63 1, ; 


ОВО 


Й 
Доверительный интервал для генерального значения ро я 
дисперсии 62 также вычисляется по известной "одномерн 


муле: 


У 2 2 У 2 
ЕР кр та, 
хуй- 0/2) ху(а/2) , а 
где 1-а — заданная доверительная вероятность; Х,(а/2) и ху1-а 


табличные значения ҳ2-распределения е у степенями свободы и 
вероятностями соответственно аи 1-а/2. 4 
Выборочные обобщенные дисперсии можно И Е. 
другом с помощью Е-критерия. Пусть 51 и 52 — оценки Е: 
дисперсий со степенями свободы у; и У; соответственно. 
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2,95 30,73 2,94 35,22 2,94 39,98 2,93 45,02 
2,37 52,29 2,39 59,58 2,41 67,27 2,42 75,37 
2,09 69,44 2,12 78,69 2,14 88,43 2,16 98,64 
1,92 84,76 1,94 95,64 1,97 107,1 240 119,0 
1,79 99,10 1,82 111,4 1,85 1244 187 137,8 
1,70 112,9 1,73 126,6 1,76 140,9 178 155,8 
1,63 126,3 1,66 141,3 1,68 156,9 1,71 173,1 
1,57 139,4 1,60 155,6 1,62 172,5 1,65 190,0 
1,52 152,3 1,55 169,8 1,57 187,8 1,59 206,6 
1,48 165,1 1,51 183,7 1,53 203,0 1,55 223,0 
1,45 177,8 1,47 197,5 1,49 218,0 1,51 239,1 
1,42 190,4 1,44 211,3 1,46 232,9 1,48 255,1 
1,39 202,9 1,41 224,9 1,43 247,6 1,45 271,0 
1,37 215,4 1,39 238,5 1,41 262,3 1,43 286,8 
1,35 227,8 1,37 252,0 1,39 276,9 1,41 302,6 
1,330 240,13 1,350 265,40 1,368 291,43 1,386 318,20 
1,314 252,46 1,333 278,81 1,351 305,92 1,368 333,79 

1,299 264,76 1,317 292,17 1,335 320,36 1,351 349,32 
1,286 271,03 1,303 305,51 1,320 334,77 1,336 364,81 
1,273 289,28 1,290 318,82 1,307 349,14 1,323 380,25 

1,262 301,51 1,278 332,10 1,294 363,49 1,310 395,66 

1,252 313,72 1,268 345,36 1,283 377,61 1,298 411,05 

1,242 325,91 1,258 358,60 1,273 392,10 1,287 426,40 

1,233 338,10 1,248 371,83 1,263 406,37 1,277 441,73 

1,225 350,26 1,240 385,04 1,254 420,63 1,268 457,03 

1,217 362,42 1,232 398,23 1,245 434,37 1,259 472,32 

1,210 374,57 71,224 411,42 1,237 449,09 1,251 487,59 

1,204 386,71 1,217 424,59 1,230 463,30 1,243 502,84 

1,197 398,84 1,210 437,75 1,223 477,50 1,236 518,08 

1,191 410,96 1,204 450,90 1,217 491,68 1,229 533,30 


ЕЕЕ ЩЕ ее ОЙ 


сравнения вычисляется отношение: 

Е =52/52. 

Значимость различий оценивается, как обычно, по таблице Ғ-расп- 
ределения с числами степеней свободы числителя и знаменателя, 
равными у; и у; соответственно. Следует иметь в виду, что сравни- 
ваемые обобщенные дисперсии могут определяться по комплексам с 
разным числом признаков. ; 

Обобщенные дисперсии можно усреднять. Пусть Я, өзе 5% -- дис- 
персии, оцененные по К совокупностям признаков (выборкам); у|, 
= Ук -т соответствующие степени свободы. Средневзвешенная оценка 

2 - 2 
дисперсии 5 <- У, №57; число ее степеней свободы у у! +... + Ук. 
і-1 
16. Зак. 1490 241 


Для проверки дисперсий на однородность можно применять С 
22.42 Е 

ные критерии, в частности критерий Бартлетта. Пусть 51, 52 ,..., 5% 
оценки обобщенной дисперсии в К выборках; у, У2 ..., Ук — ИХ сте- 


пени свободы. Как и выше, обозначим: 


к 2 
х2-ТуудЗ,, 
С г 51 
ее 
са Х----|%і. 
229 3(&—1) 2. У 


При справедливости нуль-гипотезы о равенстве всех шеги ва 
личина Х2 распределена, как х2 сК- 1 степенями свободы. 07 з 
что критерий Бартлетта чувствителен к нарушениям повел оос 
Но поскольку стандартизованная обобщенная дисперсия облад | 
как сказано выше, некоторыми робастными свойствами, Е 
этого критерия для комплекса признаков более обоснованно, чем д 

из признаков в отдельности. 
а обобщаннкй коэффициент вариации. Наряду с дисперейте; 
можно ввести другие обобценные показатели, аналогичные деа 
щимся для одномерного случая, например обобщенный коан 
вариации С,. Определим его по аналогии со случаем одного приз а 
как дисперсию признаков, нормированных к средним лазе 
Тогда формула для коэффициента вариации будет иметь вид С,,- А 


х | едних значений 
где ме (а... хр — среднее геометрическое сред 


признаков, которое тоже можно принять за возможное определение 
обобщенного среднего, если все признаки являются положительными 
числами. Отметим, что приближенная ошибка этого обобщенного 


среднего 


5; 
шіс- 
наков: Сұ---бі- 
где С; и С; — обычные коэффициенты вариации приз ра 1 
= і 21, в за- 
Е Так как 5м зависит от М, то, как указывалось в 53 гл 


дачах сравнения и при построении доверительного интервала лучше 
использовать логарифмическое преобразование: 
М" = шМ. 
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При этом 


Так как М и 5некоррелированы, то можно получить приближенную 
формулу для статистической ошибки обобщенного коэффициента ва- 
риации: 


2 
где Ум” = $м». Как и для обычного коэффициента вариации, лучше 


использовать > логарифмическое преобразование ІпС,, ошибка 


которого | І -У 
у М” 


В заключение этого раздела отметим, что указанные обобщенные 
характеристики удобны в том отношении, что позволяют одним 
числом охарактеризовать основные черты изменчивости комплекса 
признаков. Вместе с тем ясно, что эти обобщенные параметры приоб- 
ретают ценность в "окружении" других параметров (характеристик 
отдельных признаков, главных компонент и др.). Кроме того, обоб- 
ценные оценки можно получать не обязательно по всему изученному 
набору признаков. Этот набор может быть разбит на группы приз- 


наков, по каждой из которых можно получить свои обобщенные оцен- 
ки. 


Главные компоненты 


Линейные комбинации признаков. Во многих случаях много- 
мерный анализ связан с изучением так называемых линейных комби- 
наций признаков. Линейная комбинация — это сумма (или разность) 
значений различных признаков особей. Переход к линейной комби- 
нации нередко вызван характером самих признаков. Например, ряд 
линейных размеров особи могут иметь общие "участки". На рис. 44 
длина листа АЕ включает в себя длину ВЕ, которая, в свою очередь, 
включает целиком СЕ и РЕ. Чтобы избавиться от подобного "перекры- 
вания" измерений, можно заменить исходные признаки АЕ, ВЕ, СЕ 
разностями АВ = АЕ - ВЕ, ВС = ВЕ - СЕ, СР = СЕ - ОЕ: это линейные 
комбинации исходных признаков. Линейные комбинации могут воз- 
никать еще при преобразованиях признаков. Например, если мы рас- 
сматриваем индекс Г, = х1/Х как пропорцию линейных размеров или 
Г = схухохз как меру объема, где хі хэ хз — промеры в трех направ- 
лениях (с — некоторая константа), то переход к логарифмам приво- 
дит нас к линейной комбинации логарифмов признаков: и; = Шх-Шшхо 
или и = Шж + шхо + хз + сопзі. 

При анализе комплекса коррелирующих признаков большое значе- 
ние имеют линейные комбинации общего вида, когда признаки берут с 
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и Е знаков 
Рис. 44. “Ложная” зависимость при Ме 
Расстояния от основания боковых жилок до вершины листа последовател 


держатся друг в друге: РЕ содержится в СЕ, СЕ — в ВЕ, ВЕ — в АЕ 


тем или иным весом (коэффициентом): 
Ц = СХ} + 62Х2 ++ СрХр. 
лънъми 
-" 5 ков; они могут быть и положите 
Здесь с1,..., Ср веса" признако У 


и отрицательными или просто равными нулю. Если о сее 
с = (С1,..., Ср), то новый признак и можно записать в виде и -сх (на 


ним, что произведение вектор-строки с на вектор-столбец х — это 


число; см. $ Згл. 1). . 
Понятие главной компоненты. Одним из наиболее раство 
ненных линейных комбинаций являются т.н. главные компоне А 


Пусть хі- (Ха, Хр. Хр) — вектор признаков і-й особи. Пусть е; — 
13 


Г -4 ь- 
собственный вектор ковариационной матрицы 5 (или 5) с максимал 
ным собственным значением М (см. 8 3 гл. 1). Величина 


І т 
Ите1Х; 


называется первой главной компонентой для і-й особи (эквивалент- 
ная запись: и г = х;61). Если ез — собственный вектор матрицы 5 с 
Ии; 1 


максимальным (после еј) собственным значением, то число 


пот 
и, же: 
называется второй главной компонентой для 1-й особи. Аналогично 


Ш Дита: 
определяется третья главная компонента (и =е3х;, четвертая ит.д. 


Полученные указанным методом ИП, иШ и т.д. являются ки 58 
новым признаками особи. Каждый из этих признаков можно затем г. 
лизировать всеми известными методами, желательно, конечно, р 
бастными (см. $ 2). | 

Важность перехода от исходных коррелированных признаков кв: 
выми признакам — главным компонентам — заключается в уме 
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нии размерности пространства признаков: число информативных 

главных компонент гораздо меньше р. Информативность здесь лони- 
мается как доля всей изменчивости комплекса р исходных признаков, 
приходящихся на главные компоненты. На первую главную компонен- 
ту приходится максимальная часть всей изменчивости (а именно Х1/ 
(А + А +...+ А,), на вторую — максимальная из оставшейся ОО + 
+ +---+ Хр) и т.д. Во многих практически важных случаях доля ин- 
дивидуальной изменчивости, приходящаяся на 3—5 первых главных 
компонент, часто превышает 70—905 общей изменчивости даже при 
очень большом числе исходных признаков. Это значит, что, ограни- 
чиваясь немногими главными компонентами, мы сможем практически 
оценить большую часть изменчивости. Выигрыш в наглядности нали- 
цо: исходное многомерное пространство признаков сводится мето- 
дом главных компонент к пространству гораздо меньшей размер- 
ности. Это дает возможность иллюстрировать результаты внутри- и 
межпопуляционных сравнений, построив графики, на осях коорди- 
нат которых отложены пары первых главных компонент: [и П, Ти Ш, П 
и Ши т.д. Причем существующие различия между группами особей, 
как правило, проявляются ярче, чем на тех графиках, где оси коор- 
динат представлены исходными признаками. 

Нормировка признаков. При определении главных компонент 
следует учитывать то обстоятельство, что признаки могут иметь раз- 
ную размерность. Поэтому желательна какая-нибудь предваритель- 
ная нормировка, выравнивающая признаки. В противном случае мож- 
но прийти к ложным заключениям, обусловленным неинвариант- 
ностью собственных векторов ковариационной матрицы при изме- 
нении масштаба (обсуждение см.: [Животовский, 1984]. Поэтому, как 
правило, берут вместо х; их нормированные отклонения уу = (Ху- 
- Х;)/5, где х; — среднее значение признака /; 5) — его стандартное 
отклонение. Признаки можно не центрировать к средним значениям, а 
брать отношения у; =х,/5;. 

Указанная нормировка признаков к их стандартным отклонени- 
ям приводит к тому, что ковариационной матрицей для У; является 
корреляционная матрица К исходных признаков. Действитель- 
но, ковариация )-го и е-го новых признаков у: 

1 20-27 Хе- Хе. 1 1 


6 1 5 = х 
Је 
М Ј 5е М-1 5 Зе 


х (5 2) хе) = су (оре) = пр. 


Поэтому следует определить собственные векторы корреляционной 
матрицы К (обозначим их также: е; -(с), ез, ..., е ед = (6,6, ..., ери 
т.д.). А главные компоненты і-й особи определяют по формулам: 


и} =е (ха я) +е (о зз) ++ ер (яр / р), 


и =е (ха / я )+ (хо /52)+---+ е кр /зр)м тд. 245 


В векторной форме записи: 
го и т 

и же Ур. и; езу» 

аков і-го особи. Указанные фор- 


да признаки ху нормируются не 
угой величине, например у; = 


где у; — вектор нормированных призн 
мулы сохраняются и В том случае, ког 
к стандартному отклонению ғ, а к др 


= хх, При этом векторы еі. е2 определяются для матрицы 
2 А О 

5! Сүр е Сір е 

Е 12. ; 5 

21 822550 Сар 5 

М м 

ТЕ Сы 2 

? 5 

Ср сй Эр Е 


т 2.2. Ы 
где 5; = 5313: = с. (4). 

Кроме того (и это главное), вместо 5 и К можно взять их медиан- 
ные оценки 5 и К. При этом все рассмотренные здесь вычисления 
остаются теми же (с заменой всех х, 5, ги Др. нах, 5,7). 

Интерпретация главных компонент. Многолетний опыт мно- 
гих исследователей показывает, что за формализованными математи- 

а главных компонент стоят биологи- 


ческими построениями метод 
я первых 3—4 


ческие закономерности. Как правило, интерпретаци 
ядна. Например, в тех случаях, 


главных компонент достаточно нагл 
х признаков, корреляция кото- 


когда изучается комплекс размерны 
рых друг с другом положительна (пусть это будут, например, различ- 
ные промеры особи или определенного ее органа}, первая главная 


компонента интерпретируется как “общий размер", поскольку все 
компоненты собственного вектора е1 в этом случае положительны. 
Следующие главные компоненты. в каждую из которых разные приз- 
наки входят с разными знаками, интерпретируются как некие пропор- 


ЦИИ. 
Следует отметить, что главные компоненты, полученные по одной 
и той же матрице, не коррелируют друг с другом. Действительно, 


например, ковариация первой и второй главных компонент 


Мера р _ | 
тп 24 -ш Үш - и) -- 1 Ы» - зе (ит?) 


Рис. 45. Соотв : 
етствие зкологических (1) и темпоральных (1) сдвиго 
вуп 


нениев тексте, обозначение для видов см. рис. 46) 
Зачернено — 1982 г., незачернено — 1983 г. 


7-1 


5 -- симметричная положительно определенная мат- 


Но так как 
доказывает некоррелированность 


т 
рица, то е2 = 0 (см. $ 3 гл. 1). Это и 


главных компонент. 


Возможно, что некорре 
не только статистические, но и ге 
главные компоненты могут маркир 
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лированность главных компонент отражает 
нетические закономерности и что 


овать различные "поля действия" | 
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генов, определяющих вариабельность данного комплекса признаков. 
Подобная закономерность выявлена В.М. Гиндилисом и С.А. Мерсо- 
ном [Мерсон, 1976] в изменчивости числа головных щетинок в экспе- 
риментальных линиях р. теапораяет. 

Имеющиеся данные показывают также, что разные компоненты 
по-разному могут отражать характер дифференциации популяций. 
Например, у примулы, изученной на плато Гуниб (Дагестан), Тглавная 
компонента по комплексу признаков листа тестировала экологи- 
ческие различия между выборками, обусловленные принадлежностью 
к разным сообществам (лес и луг) и различием условий в разные годы 
исследований [Абдурузакова, 1986]. Одни и те же участки ареала изу- 
ченных видов примулы на Гунибском плато были обследованы в 1982 
и 1983 гг. Последний год отличался холодной весной. В результате 
развитие растений замедлилось, они были меньше по размерам, время 
цветения (когда исследовались растения) оказалось сдвинутым по 
сравнению с обычными годами, в частности с 1982 г. На рис. 45 четко 
заметно смещение по первой главной компоненте выборок 1983 г. по 
отношению к выборкам предыдущего года, сходное по направлению 
для всех четырех видов. При этом имеется качественное соответствие 
направления сдвигов при изменении биоценотических факторов в 
пределах данного года (лес -» луг) направлению темпоральных сдви- 
гов (на рис. 45 эти направления указаны стрелками для вида Р. ара). 

Различия, вызванные изученными экологическими факторами, 
однотипны и в основном тестируются первой главной компонентой. 
При этом суммарный размах изменчивости таков, что по первой глав- 
ной компоненте все изученные виды трансгрессируют, т.е. "налегают" 
друг на друга. В противоположность этому вторая, а в особенности 
третья главные компоненты хорошо разделяют, или, как говорят, 
дискриминируют, виды даже с учетом всей внутривидовой изменчи- 
вости (рис. 46). Более того, существуют линейные дискриминаторы 
(указанные на рисунке пунктирной линией), четко отделяющие виды 
друг от друга. | 

Важное достоинство метода главных компонент, как уже говори- 
лось, состоит в том, что мы, даже ограничиваясь небольшим числом 
главных компонент, все же вовлекаем в анализ весь комплекс кор- 
релирующих исходных признаков, поскольку они входят в качестве 
слагаемых в величины главных компонент. Это очень важно. Рас- 
смотрим для примера актуальную задачу изучения сопряженной из- 
менчивости количественных признаков в природных популяциях. 
Уже классическим фактом можно считать повышенную скорость рос- 
та (и стабильность развития) высокогетерозиготных по ферментным 
локусам особей у устрицы [7оигоѕ ех а1., 1980]. Подобная закономер- 
ность отмечена и у других видов растений и животных. Однако да- 
леко не всегда обнаруживают искомые ассоциации. Более того, даже 
для одного и того же вида в одних популяциях связи обнаружи- 
ваются, а в других нет. Вероятнее всего, причина подобных неудач в 
поиске ассоциаций количественных признаков с маркерами генов 
связана с малым числом изучаемых признаков. Действительно, можно 
полагать, что система полиморфных локусов может входить в еди- 
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Рис. 46. Дискриминация видов примулы в плоскости главных компонент П-ШІ 


ную 
НИ систему совместно с полигенными локусами 
; . С этой точки зрения отс 
ствие связей п е 
морфных биохимических п МН и 
ризнаков с признаками ко 
может быть кажущимся и об шы 
условлено тем, что исследуе 
лая часть этой общей интег | а = 
рированной системы гено 
лируемых ими признаков, а т и 
‚ а также тем, что часто анализ 
наки по отдельности. Одним о В. 
: из приемов в таких случая 
цел изучение главных компонент. о 
о 
в это на следующем примере. При изучении соп- 
чивости количественных и поли 
морфных призна 
в некоторых сортовых попу. Е н 
ляциях ярового ячменя не б 
ружено значительной взаимосв е 
язи десяти морфологиче 
ков растения с аллельными Балық бал. 
вариантами для трех поли 
ва | морфных бел- 
С қандық а Ша и гордеина [Животовский и др 
; я и особенно вторая главная 2 
компонента - 
ванная фактором междоузл а 
ий (в нее входили в основ 
ном общее чи 
междоузлий и длина нижних 0 
междоузлий), оказались с 
этими полиморфными систе ое. 
мами, а именно "вариантные" б 
те, которые хотя бы по одном пада 
у из исследованных трех по 
систем имели генотип, от Е расте 
‚ отличный от наиболее часто 
У данного сорта) оказались с омог о 
мещенными к одному краю 
гистограмм 
распределения по Іи П главным компонентам; причем это а 


было больше для 
тех особей, которые вариант 
Й ны 
ментным системам (рис. 47). 5 шаа 
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Рис. 47. Распределение “вариантных” особей 
в сортовой популяции ячменя на гистог- 
рамме П главной компоненты 

а — зачернены особи, имеющие редкие 
варианты по эстеразе или пероксидазе; б — 
отмечены особи, имеющие редкие варнанты 
одновременно по двум или большему числу 
аллозимных локусов; в — указаны особи с 
редкими вариантами по локусам гордеина 


Таким образом, выявляение взаимосвязи признаков может быть бо- 
лее успешным при вовлечении в анализ большого числа признаков и 
последующем их объединении в интегральные показатели, позволяю 
щие оперировать комплексом этих признаков как единым целым. 

В заключение параграфа еще раз отметим, что метод главных ком- 
понент можно применять и в том случае, когда дисперсии и кова- 
риации признаков оценены на основе медианных подходов. Более 
того, это желательно делать всегда, так как при анализе обширного 
материала нелегко отсеивать фенодевианты и потому лучше исполь- 
зовать робастные процедуры. Мы настоятельно это рекомендуем 
Кроме того, не только главные компоненты, но и любые другие ли 
нейные комбинации признаков (селекционные индексы ,дискриминант- 
ные функции) следует анализировать робастными методами. 


Оценка близости выборок 


В этом параграфе мы обратимся к проблеме выявления межвыбо- 
рочных различий и кратко обудим вопрос оценки расстояний и клас- 
сификации выборок по количественным признакам. 
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Расстояния между выборками. В качестве меры близости часто 
используют расстояние Махаланобиса [Кендалл, Стьюарт, 1976]. Обоз- 
начим ху и $; — вектор средних значений и ковариационную матрицу 
для первой выборки, оцененные по выборке объема М). Пусть хои 
5; — аналогичные величины, оцененные по выборке объеме Мо, взя- 
той из второй группировки. Примем 8 = 1/2(8, + 82). Тогда квадрат 
расстояния Махаланобиса, часто обозначаемый 2, вычисляется по 
формуле 

р? = (#, - Х2)5 1 (1 — %2)т. 


Расстояние Р обладает хорошими статистическими свойствами и 
широко используется в популяционных исследованиях. Отметим 
один недостаток этого показателя. Расстояние Махаланобиса между 
популяциями равно 0 в том случае, когда популяции не отличаются 
друг от друга по средним значениям признаков. Однако это не всегда 
логично. Например, сравниваемые популяции могут иметь одинако- 
вые средние значения по всем признакам, но отличаться друг от дру- 
га дисперсиями этих признаков или величинами корреляций между 
ними. И то и другое может быть обусловлено различиями биогеоце- 
нотического окружения этих популяций, различной генетической 
структурой их, и поэтому такие популяции нельзя считать сходными 
и нельзя пользоваться для сравнения мерой |7, которая в таких 
случаях не всегда адекватна задаче. 

Есть меры, учитывающие возможное неравенство ковариационных 
матриц. Такова мера С. Кульбака [1967|, основанная на информацион- 
но-статистических принципах. 


Пет + 55065 №) а БП + Ме 61—55) (62-87), 


где ПА — так называемый ‘следматрицы А., т.е. сумма диагональных 
элементов А. 

Укажем еще один показатель, учитывающий различие и средних 
значений, и ковариационных матриц |Животовский, 1980]. Пусть г — 
показатель сходства между двумя популяциями по совокупности р 
признаков. Обозначим 


долю сходства, обусловленную различиями между средними значе- 
ниями. Если средние совпадают, то г, =1, при несовпадении г, < 1. 


2 2 
Пусть теперь с; ис, — обобщенные дисперсии для сравниваемых 


выборок; с? = Ср. ме 5), где значения параметров для С, риМ- 


= № + №. Обозначим г, = 4 с; сс долю сходства, обусловленную 
различиями между ковариационными матрицами сравниваемых по- 
пуляций. Если матрицы совпадают, то г, = 1, при несовпадении их ғ<1. 
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Общий показатель сходства определяется как г = 7,7. 
Расстояние 4, основанное на г, можно определить как 


а? = -шг, или 


42- та + 1 По? 1 (іп с? + шо? 2. 


Каждое из указанных выражений можно НЯ Боря 
матрицы расстояний, а затем провести классификацию выборо 
ности теми же методами, что были указаны в гл. 2. дам лық 

Ординация выборок методом главных компонент. Е 
дущем разделе дан подход к ординации выборок, НИИ 
оценке матриц попарных расстояний с последующим пр ае 
одного из методов $ 4 гл. 2, например методов ВОНИ и ша 
мы рассмотрим иной подход к ординации выборок по дан 

изнаках. 

Е численность і-й выборки равна №; Сат 
‚хи вектор признаков ј-й особи, принадлежащей г-й выборке (1 = 1, 2,..., 


Ру = 1,2...., п). Введем следующие ковариационные матрицы: 


Тр аа --т 
%--- УМ; -Мхх |, 
И 
к №; ре 
1 Ц т 
и > уху У №Мхіх: , 
М-к і-1у-і іс 
1 [АМ пе 
ев У х;Х; Мұхх|, 
-Ңішу-і 
гу й ві-й выборке; 
где хі--- Ужу - вектор средних значени ; 
ііі 
№ 


$ х. — общий вектор средних значений для всех выборок; 
и б 

М= М, ++ № — суммарная численность всех выборок. Назовем 5, — 

межгрупповой (межвыборочной) ковариационной маа 5 е 3 

внутригрупповой (внутривыборочной) усредненной матрицей; 


Й 
общей ковариационной матрицей. 7 
осо атин Е (К,„) корреляционную матрицу, полученную из соот 


ветствующей ковариационной матрицы. На основе любой из нагой 
матриц (Кьи К,) можно провести следующую процедуру 25 
вания. Определяются первые главные компоненты 41, 42. Уза аи 
собственные векторы матрицы К, (или Е,); обозначим собствен | 
числа соответственно М Ло Лз,.. Тогда проекция і-й выборки на пер 
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вую главную компоненту 


т 
Шш-а,у, 


где У; -- нормированный вектор средних значений Х; (т.е. каждая 
координата вектора Х;делится на стандартное отклонение, опреде- 
ляемое по соответствуюшей ковариационной матрице). Аналогично 
проекция і-й выборки на вторую главную компоненту 


и т.д. Эффективность используемых главных компонент определяется 
их суммарным вкладом в обшую изменчивость: 


50, +100. 


Беря в качестве базовой матрицы Ё или К,, мы получим разли- 
чные классификации выборок, по-разному отражающие обособлен- 
ность выборок друг от друга. Обе матрицы, внутри- и межвыбороч- 
ные, можно использовать также и совместно |Ваский, Кеутепі, 1971). 
Для этого следует определить собственные векторы а и собственные 


значения ХА по уравнению (5, – %5,,)а = 0, что равносильно нахожде- 


нию собственных векторов и собственных значений матрицы 8:15, 


Пусть первые собственные векторы, отвечающие максимальным по ве- 
личине собственным значениям 21, Аҙ... будут 41, а2,... Тогда проек- 
ция і-й выборки на первую главную "компоненту" 


и: = аж, 
ее проекция на вторую главную "компоненту" 
и -аҙх 


и тд. Отметим особо, что величины А; являются Ғ-критериями (со 
степенями свободы &– 1 и № – А): величиной А; можно пользоваться 
для оценки значимости і-й главной компоненты; при этом величина 


па -ПЛХ; - (по - 11 
может служить мерой дифференциации выборок по 1-й главной ком- 


к 
поненте; здесь пу = 1 М- 52 Ум? [Животовский, 1984]. 


2 і=1 


(10000 11000 810000 . 
| 610000 610000 : 
Ұ2000%0 <2000: . ) 0200070 120000 22000: + 5 
0 9200070 120000 8200070 620000 060000 о ны Манн ди 
+50000 


550000 90000 860000 660000 . . 
0500070 260000 +0000 рови аон Ве 57000`0 67000`0 1500070 +0000 ци 
120000 #40000 920000 6/0000 28000 00 290000 90000 990000 690000 
а ер 501000 101000 г11000 ное Мене 505 ан 60000 160000 и. 
9 +9100-0 671000 с1000 етіп | 1009 921000 те 1000 т00'0 Я 
$61000 661000 502000 212000 6 00 91000 91000 611000 191000 181000 9% 
> № не о 922000 562000  0%000 892000 962000 22 
кі. зин лы, ОН. обоо Зем ы ее өй. нм) ка 
087000 %6%000 808000 626000 0070 $1700`0 189000 Оо%ю00 57000 997000 12 
669000 159000 9/9000  <69000 ть 755000 08000 85000 909000 129000 х 
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